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3. This report contains indications relating to the following items: 
Basis of the report 

Priority 

Non-establishment of opinion with regard to novelty, inventive step and industrial applicability 
Lack of unity of invention 

Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 
citations and explanations supporting such statement 

Certain documents cited 

Certain defects in the international application 

Certain observations on the intemational application 
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INTERNATIONAL PRELIMINARY EXAMINATION REPORT 



International application No. 

PCT/FROO/01908 



I. Basis of the report 



1 . This report has been drawn on the basis of {Replacement sheets which have been Jumished to the receiving Office in response to an invitation 
under Article 14 are referred to in this report as originally filed" and are not annexed to the report since they do not contain amendments.): 

[ [ the international application as originally filed. 

the description, pages ]^ , as originally filed, 

pages , filed with the demand, 

pages , filed with the letter of 

pages , filed with the letter of • 



the claims. 



Nos. 
Nos. 
Nos. 
Nos. 
Nos. 



1-22 



, as originally filed, 

, as amended under Article 1 9, 

, filed with the demand, 

, filed with the letter of 

, filed with the letter of 



14 June 2001 (14.06.2001) 



the drawings. 



sheets/fig 
sheets/fig 
sheets/fig 
sheets/fig 



1/13-13/13 



, £is originally filed, 
, filed with the demand, 
, filed with the letter of 
, filed with the letter of 



2. The amendments have resulted in the cancellation of: 

the description, pages 

I I the claims, Nos. 



□ 

the drawings, sheets/fig 



3 I I This report has been established as if (some of) the amendments had not been made, since they have been considered 
— to go beyond the disclosure as filed, as indicated in the Supplemental Box (Rule 70.2(c)). 

4. Additional observations, if necessar>': 
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V. Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 



citations and explanations supporting such statement 

1 . Statement 

Novelty (N) Claims 1-22 YES 

Claims NO 

Inventive step (IS) Claims 1-22 YES 

Claims NO 

Industrial applicability (lA) Claims 1-22 yES 

Claims NO 

2. Citations and explanations 



1. The prior art closest to the claims filed is 
considered to be US-A-5 054 072 (mentioned on page 1 
of the application) . This document will hereinafter 
be referred to as Dl . 

2 . Dl describes a speech coding method in which 
estimations of the fundamental frequency of the 
speech signal are used to establish a series of 
harmonic frequency bands with which the frequency 
components are associated. In each harmonic 
frequency band, the (spectral) peak having the 
maximum amplitude is selected and associated with 
the frequency of the center of the band, which 
results in a harmonic series based on the coded 
fundamental frequency (see Dl, column 2, lines 26- 
38) . 

Dl teaches applying the coding of amplitudes of a 
sinusoidal model to samples of a spectral envelope 
transformed by a logarithmic compression (column 6, 
lines 38-40) - Said envelope is obtained by an 
interpolation of the maximum spectra, found using a 
simplistic algorithm applied to the Fourier spectrum 
(column 5, lines 18-20 and lines 64-67) and no 
Fomi PCT/IPEA/409 (Box V) (January 1994) 
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International application No. 
PCT/FR 00/01908 



longer by the method of colunin 2, lines 34-38. Said 
interpolation is moreover followed by a re- sampling 
at predetermined frequencies (column 5, lines 67- 
68) , which are not apparently related to the 
f undament al f r equency . 

In this case, Dl does not appear to associate or 
combine the specific search for maximum spectra 
discussed in column 2, lines 34-38 (which has been 
used against Claim 1) with the spectral envelope 
coding disclosed in columns 5 and 6. 

Although, in addition, Dl mentions the advantageous 
properties of the cepstral transform of the 
compressed envelope (column 6, lines 38-46), it does 
not appear that the actual coding and, in particular 
the data representing spectral amplitudes, are 
obtained via the effective calculation of cepstral 
coefficients on said compressed envelope. In any 
case, the passage relating to this subject in Dl 
(column 6, lines 38-46) is short and ambiguous. 

It does not therefore appear to be obvious for a 
person skilled in the art to go from coding spectral 
amplitudes as disclosed in Dl to a coding requiring 
cepstral coefficients to be obtained, all the more 
so because an additional transformation is required. 
And even if this were the case, there is nothing in 
Dl to imply that a single and same known coding 
method could be used both for obtaining spectral 
peaks and carrying out the cepstral coding of the 
envelope, as claimed in Claim 1. 

Although Dl is obviously relevant for the set of 
features of Claim 1, the examiner will not use a 
Form PCT/IPEA/409 (BoxV) (January 1994) 
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disclosure considered to be unclear, and recognizes 
that said claim is novel and inventive. 

Claims 2-21 are dependent on Claim 1 and are 
therefore considered to be novel and inventive for 
the same reason. 

The audio encoder of Claim 22, which is designed to 
carry out a novel and inventive method, is itself 
considered to be novel and inventive. 

All of the claims are industrially applicable. 
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TRAITE DE COQSERATION EN MATIERE DE BRE\£SJS 

PCT 



RAPPORT DE RECHERCHE INTERNATIONALE 
(article 1 8 et regies 43 et 44 du PCT) 



Rdfdrence du dossier du ddposant ou 

du mandataire 

BCT000058 


POUR SUFTE ^^^^ ^ notification de transmission du rapport de recherche intemationale 
(formulaire PCT/ISA/220) et, le cas ^dant, le point 5 d-aprds 

ADONNER 


Oemande intemationale n° 
PCT/FR 00/01908 


Date du ddpot intemational(/o(yr/mo/s/ann^^ 

04/07/2000 


(Date de priorrtd (la plus ancienne) 
Qour/mo^ann6Q) 

05/07/1999 


D^posartt 

MATRA NORTEL COMMUNICATIONS 



Le present rapport de recherche intemationale, dtabli par radministratton chargde de la recherche intemationale, est transmis au 
ddposant conformdment k rartlcle 18. Une copie en est transmise au Bureau international. 

Ce rapport de recherche intemationale comprend 4 feuilies. 

|X| II est aussi acoompagnd d'une copie de cheque document relatif k I'dtat de la technique qui y est citd. 



1. Base du rapport 

a. En ce qui concerne la langue, la recherche Internationale a dte effectu^ sur la base de la demande intemationale dans la 
iangue dans laquelle elle a M ddpos^, sauf indtoation oontraire donnde sous le mdme point 

I I la recherche intemationale a 6td effectude sur la base d'une traduction de la demande Intemationale remise k radministration. 

b. En ce qui concerne les sequences de nucltetldee ou d'acldes amines divulgu6es dans la demande intemationale (le cas Mi^ant), 
la recherche intemationale a dt6 effectu6e sur la base du listage des sequences : 
I I contenu dans la demande intemationale, sous forme dcrite. 

d^pos^e avec la demande intemationale, sous forme ddchiffrak)le par ordinateur. 

remls ultdrieurement k radministration, sous forme dcrite. 

remis uttdrieurement k radministration, sous forme d^chiffrable par ordinateur. 



□ 
□ 
□ 
□ 

□ 



La declaration, selon laquelle le listage des sequences pr^ent^ par dcrit et foumi utt^rieurement ne vas pas au-delli de la 
divulgation faite dans la demande telle que d^posde, a 6td foumie. 

La dMaration, selon laquelle les informations enregistr^es sous forme ddchiffrable par ordinateur sent identiques k celles 
du listage des s^uences prdsentd par dcrit, a dtd foumie. 



2. 

a 



|~| II a 6t6 eetlm^ que eertalnes revendlcatlons ne pouvafent paa faire I'objet d'une recherche (voir le cadre I). 
I I n y a absence d'unK6 de I'Inventlon (voir le cadre II). 



En ce qui conceme le litre, 

I I le texte est approuvd tel qu'il a M remis par le ddposant 
[X| Le texte a dt^ Stabli par radministration et a la teneur suivante: 

CODAGE AUDIO AVEC COMPOSANTS HARMONIQUES 



En ce qui conceme i'abrdgd, 

[Y] le texte est approuv6 tel qu'il a dtd remis par le d^osant 

□ le texte (reprodurt dans le cadre III) a #td ^tabll par radministration conform^ment k la regie 38.2b). Le d^posant peut 
presenter des observations k radministration dans un d^lai d'un mois k compter de la date d'expddition du present rapport 
de recherche intemationale. 



6. La figure des desslns k publier avec I'abrdg^ est la Figure n"" 



Pn sugg6r6eparled6posant. Aucune des figures 

n parce que le ddposant n'a pas suggdrd de figure. n est 6 publier. 

I I parce que cette figure caract6rise mieux rinvention. 
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Expediteun L'ADMINISTRATION CHARGEE DE 

L'EXAMEN PRELIMINAIRE INTERNATIONAL 



Oestinataire: 

LOISEL, Bertrand 
CABINET PLASSERAUD 
84, rue d'Amsterdam 
75440 Paris Cedex 09 
FRANCE 



R e: c u 1 



r 



1 



If 



NOTIFICATION DE TRANSMISSION DU 
RAPPORT D'EXAMEN PRELIMINAIRE 
INTERNATIONAL 

(rdgle 71.1 du POT) 



(fexp^dition 
O'our/mois/ann§e) 26.09.2001 



R^f^rence du dossier du ddposant ou du mandataire 
BCT000058 BLO/EB/SDV 



NOTIFICATION IMPORTANTE 



Demande intemationale No. 
PCT/FROO/01908 



Date du d^pot international (jour/mois/ann^e) 
04/07/2000 



Date de priority (jour/mois/ann6e) 
05/07/1999 



D6posant 

MATRA NORTEL COMMUNICATIONS et al. 



1. II est notifi^ au deposant que radministratlon chargee de I'examen preiiminaire international a etabli le rapport 
d'examen preiiminaire international pour la demande intemationale et le lul transmet ci-joint, accompagn^, le 
cas §ch6ant, de ces annexes. 

2. Una copie du present rapport et, le cas ^ch^ant, de ses annexes est transmise au Bureau international pour 
communication k tous les offices elus. 

3. Si tel ou tel office ^iu I'exige, le Bureau international §tablira une traduction en langue anglaise du rapport 
Texclusion des annexes de celui-ci) et la transmettra aux offices int^ress^s. 

4. RAPPEL 

Pour aborder la phase nationale aupr^s de cheque office dlu, le deposant doit accomplir certains actes (d^pdt 
de traduction et paiement des taxes nationales) dans le d^lai de 30 mois a compter de la date de priorite (ou 
plus tard pour ce qui concerne certains offices) (article 39.1) (voir aussi le rappel envoye par le Bureau 
intemational dans le formulaire PCT/IB/301). 

Losrqu'une traduction de la demande Internationale doit etre remise k un office elu, elie doit comporter la 
traduction de toute annexe du rapport d'examen preiiminaire international, li appartient au deposant d'^tablir la 
traduction en question et de la remettre directement a chaque office eiu intSresse. 

Pour plus de precisions en ce qui concerne les d^lais applicables et tes exigences des offices elus, voir le 
Volunrie II du Guide du deposant du POT. 



Norn et adresse postale de radmlnstration charg6e de Texamen 
pr6liminaire intemational 

Office europ6en des brevets 
^jjj D-80298 Munich 

T6I. +49 89 2399 - 0 Tx: 523656 epmu d 
Fax: +49 89 2399 - 4465 



Fonctionnalre autoris6 
Benigar, M 

Tei.+49 89 2399-2996 



Formulaire PCT/IPEA/416 (juillet 1992) 
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TRAITE DE ^^PERATION EN MATIERE 

PCT 



BREVETS 



RAPPORT D'EXAMEN PRELIMINAIRE INTERNATIONAL 

(article 36 et regie 70 du PCT) 



R^f^rence du dossier du d^posant ou du 
mandataire 

BCT000058 BLO/EB/SDV 



voir la notification de transmission du rapport d'examen 
POUR SUITE A DONNER pr§liminalre international (formulaire PCT/IPEA/416) 



Demande Internationale n* 
PCT/FROO/01908 



Date du d§pot international (jour/mois/ann6e) 
04/07/2000 



Date de priority (jour/mois/ann6e) 
05/07/1999 



Classification Internationale des brevets (CIB) ou k la fois classification nationale et CIB 
G10L19/02 



D^posant 

MATRA NORTEL COMMUNICATIONS et al. 



1. Le present rapport d'examen pr6liminaire international, 6tabli par radmlnistaration charg^e de Texamen pr^liminaire 
international, est transmis au d^posant conform^ment h. Tarticle 36. 

2. Ce RAPPORT comprend 5 feuilles, y compris la pr6sente feullle de couverture. 

H II est accompagne d'ANNEXES, c'est-a-dire de feuilles de la description, des revendications ou des dessins qui ont 
§t6 modifiees et qui servent de base au present rapport ou de feuilles contenant des rectifications faites auprds de 
{'administration charg§e de I'examen pr^llminaire international (voir la rdgle 70.16 et {'instruction 607 des instructions 
administratives du PCT). 

Ces annexes comprennent 5 feuilles. 



3. Le present rapport contlent des indications relatives aux points suivants: 

{ ^ Base du rapport 
Priority 

Absence de formulation d'opinion quant k ia nouveaute, I'act 
d'application industrlelle 



Declaration motivee selon I'article 35(2) quant h la nouveaute, I'activit^ inventive et la possibility 
d'application industrlelle; citations et explications a I'appui de cette declaration 

Certains documents cites 

Irrdgularites dans la demande Internationale 

Observations relatives ci la demande Internationale 



II 


□ 


III 


□ 


IV 


□ 


V 




VI 


□ 


VII 


□ 


VIII 


□ 



Date de presentation de la demande d'examen preiiminaire 
Internationale 

22/01/2001 



Date d*achevement du present rapport 
26.09.2001 



Norn et adresse postale de radministration chargee de 
I'examen preiiminaire international: 
Office europeen des brevets 

D^0298 Munich 
Tel. +49 89 2399 - 0 Tx: 523656 epmu d 

Fax: +49 89 2399 - 4465 



Fonctionnaire autorise 
Bourdier, R 

N"" de telephone +49 89 2399 2130 



Fomiulalre PCT/IPEA/409 (feullle de couverture) Qanvler 1994) 
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RAPPORT D'EXAWiEN 
PRELiMINAIRE INTERNATIONAL 



Demande internationale n° PCT/FROO/01 908 



I. Base du rapport 

1 . En ce qui concerne les elements de la demande internationale {les feuilles de remplacement qui ont 4t4 remises 
d I'office recepteur en r^ponse a une invitation faite conform6ment it I'article 14 sont consid4r4es dans le present 
rapport comme "initialement depos6es" et ne sont pas jointes en annexe au rapport puisqu'eiies ne contiennent 
pas de modifications (regies 70. 16 et 70, 17)): 

Description, pages: 

1-31 version initlale 

Revendications, N*": 

1-22 re5ue(s) le 18/06/2001 avec la lettre du 14/06/2001 

Dessins, feuilles: 

1/1 3-1 3/1 3 version initiate 

2. En ce qui concerne la langue, tous les 6l6ments indiqu^s ci-dessus etaient k la disposition de Tadministration ou 
lui ont 6t§ remis dans la langue dans laquelle la demande internationale a §t6 d6pos6e, sauf indication contraire 
donn^e sous ce point. 

Ces 6l§ments §taient h la disposition de I'administratlon ou lui ont et§ remis dans la langue suivante: , qui est : 

□ la langue d'une traduction remise aux fins de la recherche internationale (selon la r6gle 23.1(b)). 

□ la langue de publication de la demande internationale (selon la r6gle 48.3(b)). 

□ la langue de la traduction remise aux fins de I'examen pr6limlnaire internationale (selon la r6gle 55.2 ou 



3. En ce qui concerne les sequences de nucleotides ou d'acide amines divulguees dans la demande 

Internationale (le cas 6ch6ant), Texamen pr6liminaire Internationale a 6t§ effectu6 sur la base du listage des 



□ contenu dans la demande internationale, sous forme 6crite. 

□ d6pos6 avec la demande internationale, sous forme d6chlffrable par ordinateur. 

□ remis ult6rieurement h Tadministration, sous forme 6crite. 

□ remis ult6rieurement d Tadministration, sous forme d6chiffrable par ordinateur. 

□ La declaration, selon laquelle le listage des sequences par 6crit et fourni ult6rieurement ne va pas au-deia 
de la divulgation faite dans la demande telle que d^pos^e, a ^te foumie. 

□ La declaration, selon laquelle les informations enregistr6es sous d6chiffrable par ordinateur sont identiques a 
celles du listages des sequences Presents par ^crit, a 6te foumie. 

4. Les modifications ont entram^ I'annulation : 



55.3). 



sequences : 



Formulaire PCT/lPEA/409 (cadres l-VIII. feuille 1) Quillet 1998) 
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□ de la description, pages : 

□ des revendications, n*** : 

□ des dessins, feuilles : 

5. □ Le present rapport a 6t6 formule abstraction faite (de certaines) des modifications, qui ont §t6 consider6es 
comme allant au-dela de I'expos^ de {'invention tel qu'il a 6X6 dSposd, comme il est indiqud cl-apr^s (r^gle 
70.2(c)) : 

(Toute feuille de remplacement comportant des modifications de cette nature doit Stre indiqu4e au point 1 et 
annex4e au present rapport) 



6. Observations compl^mentaires, le cas ^ch^ant : 



V. Declaration motivee salon rarticle 35(2) quant a la nouveaute, ractivite inventive et la possibilite 
d'application industrieile; citations et explications a i'appui de cette declaration 

1. Declaration 

Nouveaute Qui : Revendications 1 -22 

Non : Revendications 

Actlvit6 inventive Oul : Revendications 1-22 

Non : Revendications 

Possibility d'application industrieile Oul : Revendications 1 -22 

Non : Revendications 



2. Citations et explications 
voir feuille separee 
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RAPPORT D EXAMEN 



Demande Internationale n** PCT/FROO/01 908 



PREUMINAIRE INTERNATIONAL - FEUILLE SEPAREE 



CONCERNANT LA SECTION V 

1 . L'etat de la technique le plus proche pour les revendications au dossier est 
considere comme etant US-A-5 054 072 (nnentionne a la page 1 de la demande) . 
On appellera ce document D1 par la suite. 

2. D1 discute une technique de codage de parole dans laquelle des estimations de 
la frequence fondamentale du signal de parole sont utilisees pour etablir une serie 
de bandes de frequences harmoniques auxquelles les composantes frequentielles 
sont associees. Dans chaque bande de frequence harmonique, on s^lectionne le 
pic (spectral) ayant Tamplitude maximum et on I'associe k la frequence du centre 
de la bande, ce qui resulte en une serie harmonique basee sur la frequence 
fondamentale codee, voir D1 , colonne 2, lignes 26-38. 

D1 enseigne d'appliquer le codage des amplitudes d'un modele sinusoidal aux 
echantillons d'une enveloppe spectrale transformee par une compression 
logarithmique (colonne 6, lignes 38-40). Cette enveloppe est obtenue a partir 
d'une interpolation des maxima spectraux, trouves selon un algorithme simpliste 
applique au spectre de Fourier (colonne 5, lignes 18-20 et lignes 64-67) et non 
plus par la methode de la colonne 2, lignes 34-38. Cette interpolation est d'ailleurs 
suivie d'un re-echantillonnage a des frequences predefinies (colonne 5, lignes 67- 
68) qui ne sont apparemment pas llees a la frequence fondamentale. 

En Toccurrence, D1 ne semble pas faire de lien, ni de combinaison, entre la 
recherche particuliere de maxima spectraux discutee a la colonne 2, lignes 34-38 
(qui a ete utilisee centre la revendication 1) avec le codage de I'enveloppe 
spectrale divulguee aux colonnes 5 et 6. 

Bien qu'en outre, D1 mentionne les prdprietes avantageuses de la transformee 
cepstrale de I'enveloppe comprimee (colonne 6, lignes 38-46), il ne semble pas 
que le codage lui-meme, et en parliculier I'obtention de donnees representatives 
d'amplitude spectrales soit obtenues en passant par le calcul effectif de 
coefficients cepstraux sur ladite enveloppe comprimee. En tous cas, le passage 
de D1 , colonne 6, lignes 38-46 est court et ambigu a ce sujet. 



Formulaire PCT/Feuille s6paF6e/409 (feuille 1) (OEB-avril 1997) 
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II ne parait done pas evident pour Thomme du metier de passer du codage des 
amplitudes spectrales tel que divulgue dans D1 a un codage necessitant 
Tobtention de coefficients cepstraux, ceci d'autant qu*une transformation 
additionnelle est requise. Et meme si tel etait le cas, rien dans D1 ne laisse 
supposer qu'un seul et meme precede de codage connu contiendrait a la fois 
I'obtention des pics spectraux et le codage cepstral de I'enveloppe, tel que 
revendiques a la revendication 1 . 

Bien que D1 soit a Tevidence pertinent pour I'ensemble des caracteristiques de la 
revendication 1 , Texaminateur renonce a utiliser une divulgation qu'il juge trop 
confuse et reconnaTt a cette revendication un caractere nouveau et inventif. 

3. Les revendications 2-21 sont dependantes de la revendication 1 et sont done 
considerees comme nouvelles et inventives pour la meme raison. 

4. Le codeur audio de la revendication 22, qui est agence pour Texecution d'un 
precede nouveau et inventif, est lui meme considere comme nouveau et inventif. 

5. Toutes les revendications sont susceptibles d'activite industrielle. 
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REVENDICATIONS 

1. Procede de codage d'un signal audio (x), dans lequel on estime une 
frequence fondamentale (Fq) du signal audio, on determine un spectre du 

signal audio par une transformee dans le domaine frequentiel d'une trame du 
signal audio, et on inclut dans un flux numerique de sortie (O) des donnees de 
codage d'une composante harmonique du signal audio, comprenant des 
donnees representatives d'amplltudes spectrales associees a des frequences 
multiples de la frequence fondamentale, dans lequel Tamplitude spectrale 
associee a une desdites frequences multiples de la frequence fondamentale 
est un maxirrnjm~local"ciunrh au voisinage de^ladite frequence 

multiple, et dans lequel lesdites donnees representatives d'amplitudes 
spectrales associees a des frequences multiples de la frequence fondamentale 
(Fq) sont obtenues au moyen de coefficients cepstraux (cx_sup) calcules en 

transformant dans le domaine cepstral une enveloppe superieure comprim6e 
(LX_sup) du spectre du signal audio. 

2. Procede selon la revendication 1, dans lequel I'enveloppe 
superieure comprim^e (LX_sup} est determin^e par interpolation desdites 
amplitudes spectrales associees aux frequences multiples de la frequence 
fondamentale (Fg) avec application d'une fonction de compression spectrale. 

3. Proc6de selon la revendication 2, dans lequel I'interpolation est 
effectuee entre des points dont Tabscisse est une frequence multiple de la 
frequence fondamentale (Fq) et dont I'ordonnee est Tamplitude spectrale 

associee a ladite frequence multiple, comprimee ou non comprimee. 

4. Precede selon Tune quelconque des revendications prec§dentes, 
dans lequel la transformation dans le domaine cepstral de Tenveloppe 
superieure comprimee (LX_sup) est effectuee suivant une echelle de 
frequences non-lineaire. 
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5. Procede selon Tune quelconque des revendications precedentes, 

dans lequel les coefficients cepstraux (cx_sup) sont quantifies pour fonner 
lesdites donnees representatives des amplitudes spectrales associees aux 
frequences multiples de la frequence fondamentale (Fq). 

5 6. Procede selon la revendication 5, dans lequel la quantification des 

coefficients cepstraux (cx_sup) porta sur un r6sidu de prediction pour chacun 
des coefficients cepstraux. 

7. Proc6de selon la revendication 6, dans lequel le r6sidu de prediction 
pour un coefficient cepstral est de la forme (cx[n,i]-a(i).rcx_q[n-1,i])/[2-a(i)], 

10 ou cx [n,l] d6si g ne une va l eur couran te dudi t coe fficient cepstraL rcx_q[n-1,i] 
designe une valeur prec§dente du residu de prediction quantifi6, et a(i) designe 
un coefficient de prediction. 

8. Procede selon la revendication 6 ou 7, dans lequel on emploie des 
predicteurs differents pour determiner les r6sidus de prediction pour au moins 

15 deux des coefficients cepstraux. 

9. Procede selon Tune quelconque des revendications 5^8, dans 
lequel les coefficients cepstraux (cx_sup) sont repartis en plusieurs sous- 
vecteurs cepstraux quantifies separement par une quantification vectorielle 
portent sur un residu de prediction des coefficients cepstraux. 

20 10. Procede selon Tune quelconque des revendications 5 a 9, dans 

lequel on normalise les coefficients cepstraux (cx_sup) avant la quantification, 
en modifiant le coefficient cepstral d'ordre 0 de telle sorte que I'amplitude 
spectrale associee a une frequence multiple de ia frequence fondamentale (Fq) 

soit representee de maniere exacte par les coefficients cepstraux normalises. 

25 11. Proc6de selon Tune quelconque des revendications 5 a 10, dans 

lequel les coefficients cepstraux (cx_sup) sont transformes par liftrage dans le 
domaine cepstral avant d'etre quantifies. 
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12. Precede selon la revendication 11, dans lequel le liftrage est de la 

forme Cp(i) = [1 +72'-Yi'] c(i)- (pt'/i), ou Cp(i) et c(i) designent le coefficient 
cepstral d'ordre l>0 respectivement avant et apr6s liftrage. et 72 sont des 
coefficients compris entre 0 et 1 , et ^ est un coefficient de preaccentuation. 

5 13. Precede selon la revendication 12. dans lequel ^ = (72 - Yi ).c(1 ). 

14. Precede selon Tune quelconque des revendications 11 a 13, dans 
lequel on recalcule une valeur du module du spectre du signal audio a au 
moins une frequence multiple de la frequence fondamentale (Fg) sur la base 

des coefficients cepstraux transformes et quantifies (cx_sup_q), et on adapte 
10 ledit liftrage de fagon ^ minimiser un ecart de module entre le spectre du signal 
audio et au moins une valeur de module recalculee. 

15. Precede selon Tune quelconque des revendications 11 a 13, dans 
lequel on recalcule une valeur du module du spectre du signal audio d au 
moins une frequence multiple de la frequence fondamentale (Fg) sur la base 

15 des coefficients cepstraux transformes et quantifies (cx_sup_q), on 
retransforme les coefficients cepstraux par liftrage et lissage dans le domaine 
cepstral, on calcule des phases minimales ((p(k)) du signal audio a des 
frequences multiples de la frequence fondamentale sur la base des coefficients 
cepstraux retransformes (cxl[n]), et on adapte le liftrage effectue avant la 

20 quantification de fagon a minimiser un ecart entre le spectre du signal audio et 
au moins une valeur complexe dent le module a une valeur recalculee pour 
une frequence multiple de la frequence fondamentale et dent la phase est 
donnee par la phase minimale calculee pour ladite frequence multiple. 

16. Precede selon la revendication 15, dans lequel les liftrages effectues 
25 avant et apr§s la quantification sont adaptes cenjointement de fagon a 

minimiser ledit §cart, et dans lequel on inclut dans les donnees de codage de la 
composante harmonique des parametres (iUf) representatifs du liftrage adapte 
effectue apres la quantification. 
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17. Proc6de selon I'une quelconque des revendications 14 S 16, dans 
lequel I'ecart minimise pour {'adaptation du littrage se rapporte a au moins une 
frequence multiple de la frequence fondamentale (Fq). s6lectionnee sur la base 
de I'importance du module du spectre en valeur absolue. 

18. Proc^de selon I'une quelconque des revendications 14 a 16, dans 
lequel on estime une courbe de masquage spectral du signal audio au moyen 
d'un module psycho-acoustique, et I'ecart minimise pour.l'adaptation du liftrage 
se rapporte a au moins une frequence multiple de la frequence fondamentale 
(Fq), selectionnee sur la base de I'importance du module du spectre 
relativement ^ la courbe de masquage. 

19. Precede selon la revendication 1, dans lequel le spectre du signal 
audio et les coefficients cepsfraux (cx_sup) resultant de la transformation de 
I'enveloppe superieure comprlm^e sont determines pour des trames 
successives de N echantillons du signal audio qui presentent des 
recouvrements mutuels, et dans lequel lesdites donnees representatives 
d'amplitudes spectrales associees aux frequences multiples de la frequence 
fondamentale estim§e (Fq), obtenues au moyen des coefficients cepstraux 
calculus en transformant I'enveloppe sup6rieure comprim6e, sont incluses 
dans le flux numerique de sortie (O) pour seulement un sous-ensemble des 
trames. 

20. Proc§d6 selon la revendication 19, dans lequel, pour les trames ne 
faisant pas partle dudit sous-ensemble, on inclut dans le flux numerique de 
sortie (O) des donnees (icx[n-1/2]) de quantification d'une erreur d'interpolation 
(ecx[n-1/2]) des coefficients cepstraux resultant de la transformation de 
I'enveloppe superieure comprimee (l-X_sup). 

21. Proc§d6 selon la revendication 19, dans lequel, pour les trames ne 
faisant pas partie dudit sous-ensemble, on determine un filtre interpolateur 
optimal (128) pour les coefficients cepstraux resultant de la transformation de 
I'enveloppe superieure comprimee (LX_sup), et on inclut dans le flux 
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numerique de sortie (<D) des donnees (iP) representant ledit filtre interpolateur 
optimal. 

22. Codeur audio, comprenant des moyens agences pour executer un 

procede selon Tune quelconque des revendications precedentes. 
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(57) Abstract: The invention concerns a method wherein the encoder estimates a fundamental frequency (Fo) of an audio signal, 
^ determines a spectrum of the audio signal by a transform in the frequency domain of a frame of the audio signal, and includes in the 
fS digital flow transmitted to the decoder data representing specual amplitudes associated with multiple frequencies of the fundamental 

frequency. The spectral amplitude associated with one of the multiple frequencies of the fundamental frequency is a 

of the spectrum module in the neighbourhood of said multiple frequency. 
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associ^ a des frequences multiples de la frequence fondamentale. Lamplimde spectrale associee a une des Sequences multiples 
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CODAGE AUDIO AVEC COMPOSANTS HARMONIQUES 

La presente invention concerne le domaine du codage des signaux 
audio. Elle s'applique en particulier, mais non exclusivement, au codage de la 
parole, en bande etroite ou en bande elargie, dans diverses gammes de debit 
5 de codage. 

La conception dun codec audio vise principalement a fournir un bon 
compromis entre le debit du flux transmis par le codeur et la qualite du signal 
audio que le decodeur est capable de reconstmire a partir de ce flux. 

Dans cette optique, 11 a notamment ete developpe des families de 

10 codeurs reposant sur una analyse du signal audio dans le domaine spectral : le 
codeur estime une frequence fondamentale du signal, representant sa hauteur 
tonale (« pitch »), et Tanalyse spectrale consiste a determiner des parametres 
representant la structure harmonique du signal aux frequences qui sent des 
multiples entiers de cette frequence fondamentale. Une modelisation de la 

15 composante non-harmonique, ou non-voisee, peut egalement etre effectuee 
dans le domaine spectral. Les parametres transmis au decodeur representent 
typiquement le module du spectre des composantes voisees et non-voisees. II 
s'y ajoute des informations representant soit des decisions voise/non-voise 
relatives a differentes portions de spectre, soit des informations sur la 

20 probabilite de voisement du signal, permettant au decodeur de determiner dans 
quelles portions du spectre il doit utiliser la composante voisee ou la 
composante non-voisee. 

Ces families de codeurs comprennent les codeurs du type MBE 
(« Multi-Band Excitation »), ou encore les codeurs de type STC (« Sinusoidal 

25 Transform Coder »). A titre de reference, on peut citer les brevets US 

4 856 068, 4 885 790, 4 937 873, 5 054 072. 5 081 681 , 5 195 166, 5 216 747. 

5 226 084, 5 226 108. 5 247 579, 5 473 727, 5 517 51 1 . 5 630 01 1 , 5 630 012. 
5 649 050. 5 651 093, 5 664 051 , 5 664 052, 5 684 926, 5 701 390, 5 715 365, 
5 749 065. 5 752 222, 5 765 127. 5 774 837 et 5 890 108. 

30 Un but de la presente invention est de permettre d'ameliorer la 

modelisation du module du spectre du signal, dans un schema de codage a 
analyse dans le domaine spectral. 

L'invention propose ainsi un precede de codage d'un signal audio, 
dans lequel on estime une frequence fondamentale du signal audio, on 

35 determine un spectre du signal audio par une transformee dans le domaine 
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frequentiel tf une trame du signal audio, et on inclut dans un flux numerique de 
sortie des donnees de codage tf une composante harmonique du signal audio, 
comprenant des donnees representatives d' amplitudes spectrales associees a 
des frequences multiples de la frequence fondamentale. Selon T invention, 
5 r amplitude spectrale associee a une desdites frequences multiples de la 
frequence fondamentale est un maximum local du module du spectre au 
voisinage de ladite frequence multiple. 

L' invention propose egalement un codeur audio comprenant des 
moyens pour la mise en oeuvre du precede ci-dessus. 
10 D'autres particularites et avantages de la presente invention 

apparaitront dans la description ci-apres rfexemples de realisation non 
limitatifs, en reference aux dessins annexes, dans lesquels : 

- la figure 1 est un schema synoptique tfun codeur audio selon T invention ; 

- les figures 2 et 3 sont des diagrammes iliustrant la formation des trames 
15 de signal audio dans le codeur de la figure 1 ; 

- les figures 4 et 5 sont des graphiques montrant un exemple de spectre 
du signal audio et iliustrant Textraction des enveloppes superieure et 
inferieure de ce spectre ; 

- la figure 6 est un schema synoptique d'un exemple de moyens de 
20 quantification utiiisables dans le codeur de la figure 1 ; 

- la figure 7 est un schema synoptique de moyens utiiisables pour extraire 
des parametres se rapportant a la phase de la composante non- 
harmonique dans une variante du codeur de la figure 1 ; 

- la figure 8 est un schema synoptique d'un decodeur audio correspondant 
25 au codeur de la figure 1 ; 

- la figure 9 est un organigramme d'un exemple de procedure de lissage 
de coefficients spectraux et d' extraction de phases minimales mise en 
oeuvre dans le decodeur de la figure 8 ; 

- la figure 10 est un schema synoptique de modules rfanalyse et de 
30 mixage spectral de composantes harmonique et non-harmonique du 

signal audio ; 

- les figures 11 a 13 sont des graphiques montrant des exemples de 
fonctions non-lineaires utiiisables dans le module d' analyse de la figure 
10; 
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- les figures 14 et 15 sont des diagrammes illustrant une lagon de proceder 
a la synthese temporelle des trames de signal dans ie decx>deur de la 
figure 8 ; 

- les figures 16 et 17 sont des graphiques montrant des fonctions de 
5 fenetrage utilisables dans la synthese des trames suivant les figures 14 

et 15 ; 

- les figures 18 et 19 sont des schemes synoptiques de moyens 
d' interpolation utilisables dans une variante de realisation du codeur et du 
decodeur ; 

10 - la figure 20 est un schema synoptique de moyens d' interpolation 

utilisables dans une autre variante de realisation du codeur ; 

- les figures 21 et 22 sont des diagrammes illustrant une autre fa^on de 
proceder a la synthese temporelle des trames de signal dans Ie decodeur 
de la figure 8, a Taide d'une Interpolation de parametres ; 

15 - les figures 23 a 25 sont des schemes synoptiques de variantes de 

moyens de post-traitement des coefficients cepstraux representant 
Tenveloppe superieure du spectre du signal dans Ie codeur de la figure 
1 ;et 

- la figure 26 est un schema synoptique partiel un decodeur associe a un 
20 codeur selon la figure 25. 

Le codeur et Ie decodeur decrits ci-apres sont des circuits numeriques 
qui peuvent, comme il est usuel dans le domaine du traitement des signaux 
audio, etre realises par programmation d'un processeur de signal numerique 
(DSP) ou un circuit integre ^application specifique (ASIC). 

25 Le codeur audio represents sur la figure 1 traite un signal audio 

d'entree x qui, dans I'exemple non-limitatif considere ci-apres, est un signal de 
parole. Le signal x est disponible sous forme numerique, par exemple a une 
frequence d'echantillonnage de 8 kHz. II est par exemple delivre par un 
convertisseur analogique-numerique traitant le signal de sortie amplifie d'un 

30 microphone. Le signal d'entree x peut egalement etre forme a partir tf une autre 
version, analogique ou numerique, codee ou non, du signal de parole. 

Le codeur comprend un module 1 qui forme des trames successives 
de signal audio pour les differents traitements effectues, et un multiplexeur de 
sortie 6 qui delivre un flux de sortie <!> contenant pour cheque trame des jeux 

35 de parametres de quantification a partir desquels un decodeur sera capable de 
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synthetiser une version decodee du signal audio. 

La structure des trames est illustree par les figures 2 et 3. Cheque 
trame 2 est composee d'un nombre N d'echantillons consecutifs du signal 
audio X. Les trames successives presentent des decalages temporels mutuels 
correspondent a M echantillons, de sorte que leur recouvrement est de 
L = N-M echantillons du signal. Dans Texemple considere. ou N = 256, 
M = 160 et L = 96, la duree des trannes 2 est de N/F^ = 32 ms, et une tranne est 

formee toutes les M/F^ = 20 ms. 

De fa?on classique, le module 1 multiplie les echantillons de cheque 
trame 2 par une fonction de fenetrage f^^, de preference choisie pour ses 

bonnes proprietes spectrales. Les echantillons x(i) de la trame etant numerotes 
de i = 0 a i = N~1, la fenetre tf analyse f^(i) peut ainsi etre une fenetre de 

Hamming, d' expression : 

= 0,54 -h 0.46. CQsf27i ' ~ ^^^^^^^^ 1 (1) 



ou une fenetre de Manning expression : 

i_/'M_i^/o^^ 

(2) 



WO = ^ 



1^ To i-(N-1)/2V 
1 + COS 271- ^ ' ' 



\ V N JJ 

ou encore une fenetre de Kaiser, d' expression 




ou a est un coefficient par exemple egal a 6, et \q{,) designe la fonction de 
Bessel tf indice 0. 

Le codeur de la figure 1 precede a une analyse du signal audio dans le 
domaine spectral. II comporte un module 3 qui calcule ia transformee de 
Fourier rapide (TFR) de chaque trame de signal. La trame de signal est mise 
en forme avant d'etre soumise au module de TFR 3 : le module 1 lui adjoint 
N = 256 echantillons a zero afin d'obtenir la resolution maximale de la 
transformee de Fourier, et il effectue d' autre part une permutation circulaire des 
2N = 512 echantillons afin de compenser les effets de phase resultant de la 
fenetre d' analyse. Cette modification de la trame est illustree par la figure 3. La 
trame dont on calcule ia transformee de Fourier rapide sur 2N = 512 points 
commence par les N/2 = 128 derniers echantillons ponderes de la trame, suivis 
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par les N = 256 echantillons a zero, et se termine par les N/2 = 128 premiers 
echantillons ponderes de la trame. 

Le module de TFR 3 obtient le spectre du signal pour chaque trame, 
dont le module et la phase sont respectivement notes |X| et (p^, ou |X(i)| et 

5 <Px(') P^*-"" '^^ index de frequence 1 = 0 a i = 2N-1 (grace a la symetrie de la 

transformee de Fourier et des trames, on peut se limiter aux valeurs pour 
0 < i < N). 

Un detecteur de frequence fondamentale 4 estime pour chaque trame 
de signal une valeur de la frequence fondamentale Fq. Le detecteur 4 peut 

10 appliquer toute methode connue d'analyse du signal de parole de la trame pour 
estimer la frequence fondamentale Fq, par exemple une methode basee sur la 
fonction tf autocorrelation ou la fonction AMDF, eventuellement precedee d'un 
module de blanchiment par prediction lineaire. L estimation peut egalement 
etre effectuee dans le domaine spectral ou dans le domaine cepstral. Une 

15 autre possibilite est tfevaluer les intervenes de temps entre les ruptures 
consecutives du signal de parole attribuables a des fermetures de la glotte du 
locuteur intervenant pendant la duree de ia trame. Des methodes bien connues 
utilisables pour detecter de telles micro-ruptures sont decrites dans les articles 
suivants : M. Basseville et al., « Sequential detection of abrupt changes in 

20 spectral characteristics of digital signals » (IEEE Trans, on Information Theory, 
1983, Vol. IT-29, n^ 5, pages 708-723) ; R. Andre-Obrecht, « A new statistical 
approach for the automatic segmentation of continuous speech signals » (IEEE 
Trans, on Acous,, Speech and Sig. Proc, Vol.36, N*^1, janvier 1988); et 
C. MURGIA et al., « An algorithm for the estimation of glottal closure instants 

25 using the sequential detection of abrupt changes in speech signals » (Signal 
Processing VII, 1994, pages 1685-1688). 

La frequence fondamentale estimee Fq fait I'objet tf une quantification, 
par exemple scalaire. par un module 5, qui fournit au multiplexeur de sortie 6 
un index iF de quantification de la frequence fondamentale pour chaque trame 

30 du signal. 

Le codeur utilise des modelisations parametriques cepstrales pour 
representer une enveloppe superieure et une enveloppe inferieure du spectre 
du signal audio. La premiere etape de la transformation cepstrale consiste a 
appliquer au module du spectre du signal une fonction de compression 
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spectrale. qui peut etre une fonction logarithmique ou en racine. Le module 8 
du codeur opere ainsi, pour chaque valeur X(i) du spectre du signal (0 < i < N), 
la transformation suivante : 

LX(i) = Log(|X(i)|) (4) 

5 dans le cas rfune compression logarithmique ou 

LX(i) = |X(if (5) 

dans le cas d'une compression en racine, y etant un exposant compris entre 0 
et 1. 

Le spectre comprime LX du signal audio est traite par un module 9 qui 
10 extrait des amplitudes spectrales associees aux harmoniques du signal 
correspondent aux multiples de la frequence fondamentale estimee FO. Ces 
amplitudes sont ensuite interpolees par un module 10 afin d'obtenir une 
enveloppe superieure comprimee notes LX_sup. 

11 est a noter que la compression spectrale pourrait de fa^on 
15 equivalente etre effectuee apres la determination des amplitudes associees 
aux harmoniques. Elle pourrait egalement etre effectuee apres T interpolation, 
ce qui ne ferait que modifier la forme des fonctions rf interpolation. 

Le module 9 d'extraction des maxima tient compte de I'eventuelle 
variation de la frequence fondamentale sur la trame tf analyse, des erreurs que 
20 peut commettre le detecteur 4, ainsi que des imprecisions liees au caractere 
discret de Techantillonnage en frequence. Pour cela, la recherche des 
amplitudes des pics spectraux ne consiste pas simplement a prendre les 
valeurs LX(i) correspondent aux index i tels que i.Fg/2N soit la frequence la 

plus proche tfune harmonique de frequence k.pQ (k > 1). Uamplitude spectrale 

25 retenue pour une harmonique d'ordre k est un maximum local du module du 
spectre au voisinage de la frequence kpQ (cette amplitude est obtenue 

directement sous forme comprimee lorsque la compression spectrale 8 est 
effectuee avant 1' extraction des maxima 9). 

Les figures 4 et 5 montrent un exemple de forme du spectre comprime 
30 LX, ou on voit que les amplitudes max! males des pics harmoniques ne 
coincident pas necessairement avec les amplitudes correspondent aux 
multiples entiers de la frequence fondamentale estimee Fq. Les flancs des pics 

etant assez raides, une petite erreur de positionnement de la frequence 
fondamentale Fq, amplifiee par I'indice tfharmonique k, peut distordre 
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fortement Tenveloppe superieure estimee du spectre et provoquer une 
mauvaise modelisation de la structure formantique du signal. Par exemple, 
prendre directement Tamplitude spectrale pour la frequence 3,Fq dans le cas 
des figures 4 et 5 produirait une erreur importante dans r extraction de 
5 Tenveioppe superieure au voisinage de Tharmonique d'ordre k = 3, alors qu'il 
s'agit tfune zone energetiquement importante dans T exemple dessine. En 
effectuant T interpolation a partir du veritable maximum, on evite ce genre 
d' erreur rf estimation de Tenveioppe superieure. 

Dans Texemple represents sur la figure 4, T interpolation est effectuee 
10 entre des points dont Tabscisse est la frequence correspondant au maximum 
de Tamplitude tfun pic spectral, et dont I'ordonnee est ce maximum, avant ou 
apres compression. 

U interpolation effectuee pour calculer Fenveloppe superieure LX_sup 
est une simple interpolation lineaire. Bien entendu une autre forme 
15 d' interpolation pourrait etre utilises (par exemple polynomial ou spline). 

Dans la variants preferss rspressntee sur la figure 5, F interpolation est 
effsctuss entre des points dont Tabscisss sst une frequence K.Fq multiple de la 

frequencs fondamsntals (sn fait la frequsncs la plus proche dans le spectre 
discrst) St dont i'ordonnee est 1' amplitude maximale, avant ou apres 

20 compression, du spectre au voisinage de cette frequence multiple. 

En comparant les figures 4 et 5, on peut voir que le mode d' extraction 
selon la figure 5, qui repositionne les pics sur les frequences harmoniques, 
conduit a une meilleure precision sur Tamplitude des pics que le decodeur 
attribuera aux frequsnces multiples de la frequence fondamentale. II peut se 

25 produire un leger deplacement en frequence de la position de ces pics, ce qui 
n'est pas perceptuellement tres important et n'est daiileurs pas evite non plus 
dans le cas de la figure 4. Dans le cas de la figure 4, les points d'ancrage pour 
r interpolation sont confondus avec les sommets des pics harmoniques. Dans le 
cas de la figure 5, on impose que ces points d'ancrage se trouvent precisement 

30 aux frequences multiples de la frequence fondamentale, leurs amplitudes 
correspondant a ceiles des pics. 

Lintervalle de recherche du maximum d' amplitude associe a une 
harmonique de rang k est centre sur T index i de la frequence de ia TFR la plus 



proche de k.pQ, c'est-a-dire i = 



2Nkfo^l 



, OL4 [a J designe rentier egal ou 
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immediatement inferieur au nombre a. La largeur de cet intervalle de recherche 
depend de la frequence d'echantillonnage F^, de la taille 2N de la TFR et de la 

gamme de variation possible de la frequence fondamentale. Cette largeur est 
typiquement de Tordre d'une dizaine de frequences avec les exemples de 
5 valeurs precedemment consideres. On peut la rendre reglable en fonction de la 
valeur Fq de la frequence fondamentale et du numero k de rharmonique. 

Afin d'ameliorer la resolution dans les basses frequences et done de 
representer plus fidelement les amplitudes des harmoniques dans cette zone, 
une distorsion non-lineaire de Techelle des frequences est operee sur 

10 Tenveloppe superieure comprimee par un module 12 avant que le module 13 
effectue la transformee de Fourier rapide inverse (TFR!) fournissant les 
coefficients cepstraux cx_sup. 

La distorsion non-lineaire permet de minimiser plus efficacement 
Terreur de modelisation. Eile est par exemple effectuee selon une echelle de 

15 frequences de type Mel ou Bark. Cette distorsion peut eventuellement 
dependre de la frequence fondamentale estimee Fq. La figure 1 illustre le cas 

de Techelle Mel. La relation entre les frequences F du spectre lineaire, 
exprimees en hertz, et les frequences P de Techelle Mel est la suivante : 

IT. 1000 , F >| 

20 Afin de limiter le debit de transmission, une troncature des coefficients 

cepstraux cx_sup est effectuee. Le module de TFR! 13 a besoin de calculer 
seulement un vecteur cepstral de NCS coefficients cepstraux d'ordres 0 a 
NCS-1 . A titre tf exemple, NCS peut etre egal a 16. 

Un post-filtrage dans le domaine cepstral, appele post-1 iftrage, est 

25 applique par un module 15 a Tenveloppe superieure comprimee LX_sup. Ce 
post-liftrage correspond a une manipulation des coefficients cepstraux cx_sup 
delivres par le module de TRF1 13, qui correspond approximativement a un 
post-filtrage de la partie harmonique du signal par une fonction de transfert 
ayant la forme classique : 

H(Z, = (1-.Z-1)^ (7) 

oCi A(2) est la fonction de transfert d'un f litre de prediction lineaire du signal 
audio, et sont des coefficients compris entre 0 et 1, et n est un coefficient 

de preaccentuation eventuellement nul. La relation entre le coefficient post-liftre 
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tf ordre i, note Cp(i), et le coefficient cepstral correspondant c(i) = cx_sup(i) 
delivre par le module 1 3 est alors : 

Cp(O) = c(0) 



Le coefficient de preaccentuation optionnel ^ peut etre controle en 
posant comme contrainte de preserver la valeur du coefficient cepstral 
cx_sup(1) relatif a la pente. En effet, la valeur c(1) = cx_sup(1) d'un bruit blanc 
filtre par le filtre de preaccentuation correspond au coefficient de 
preaccentuation. On peut ainsi choisir ce dernier de la fagon suivante : 
^ = (Y2-Ti).c(1). 

Apres le post-liftre 15, un module de normalisation 15 modifie encore 
ies coefficients cepstraux en imposant la contrainte de modelisation exacte 
d'un point du spectre initial, qui est de preference le point le plus energetique 
parmi Ies maxima spectraux extraits par le module 9. En pratique, cette 
normalisation modifie seulement la valeur du coefficient Cp(0). 

Le module de normalisation 16 fonctionne de la fagon suivante: il 
recalcule une valeur du spectre synthetise a la frequence du maximum indique 
par le module 9, par transformee de Fourier des coefficients cepstraux 
tronques et post-liftres, en tenant compte de la distorsion non-lineaire de Taxe 
des frequences ; il determine un gain de normalisation par la difference 

logarithmique entre la valeur du maximum fournie par le module 9 et cette 
valeur recalculee ; et ii ajoute le gain g^^j au coefficient cepstral post-liftre Cp(0). 

Cette normalisation peut etre vue comme faisant partie du post-liftrage. 

Les coefficients cepstraux post-liftres et normalises font Tobjet tfune 
quantification par un module 18 qui transmet des index de quantification 
correspondants icxs au multiplexeur de sortie 6 du codeur. 

Le module 1 8 peut fonctionner par quantification vectorielle a partir de 
vecteurs cepstraux formes de coefficients post-liftres et normalises, notes ici 
cxin] pour la trame de signal de rang n. A titre rfexemple, le vecteur cepstral 
cx[n] de NCS = 16 coefficients cepstraux cx[n.O], cx[n,1], .... cx[n.NCS-1] est 
distribue en quatre sous-vecteurs cepstraux contenant chacun quatre 
coefficients rfordres consecutifs. Le vecteur cepstral cx[n] peut etre traite par 
les moyens representes sur la figure 6. faisant partie du module de 




pour i > 0 



(8) 
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quantification 18. Ces moyens mettent en oeuvre, pour chaque composante 
cx[n,i], un predicteur de la forme : 

cxp[n.i] = (1 - a(i)). rcx(n, i] + a(i).rcx[n-1, i] (9) 

ou rcx[n] designs un vecteur residuel de prediction pour la trame de rang n 
dont les composantes sont respectivement notees rcx[n,0], rcx[n,1], .... 
rcx[n.NCS-1], et a(i) designs un coefficient de prediction choisi pour etre 
representatif d'une correlation inter-trame supposee. Apres quantification des 
residus, ce vecteur residuel est defini par : 

rcx[n.i]=^^t"''J-°^^')^^^-qt"-''-i3 (io) 
2-a(i) 

ou rcx_q[n-1] designs le vecteur rssiduel quantifie pour la trame de rang n-1, 
dont les composantes sont respectivement notees rcx_q[n,0], rcx_q[n,1], .... 
rcx_q[n,NCS-1]. 

Le numerateur de la relation (10) est obtenu par un soustracteur 20, 
dont les composantes du vecteur de sortie sont divisees par les quantites 
2-a(i) en 21. Aux fins de la quantification, le vecteur residuel rcx[n] est 
subdivise en quatre sous-vecteurs, correspondant a la subdivision en quatre 
sous-vecteurs cepstraux. Sur la base d'un dictionnaire obtenu par 
apprentissage prealable, 1' unite 22 precede a la quantification vectorielle de 
chaque sous-vecteur du vecteur residuel rcx[n]. Cette quantification peut 
consister, pour chaque sous-vecteur srcx[n], a selectionner dans le dictionnaire 
le sous-vecteur quantifie srcx_q[n] qui minimise I'erreur quadratique 

||srcx[n]-srcx_q[n|^. L' ensemble icxs des index de quantification icx, 

correspondant aux adresses dans le ou les dictionnaires des sous-vecteurs 
residuels quantifies srcx_q[n], est foumi au multiplexeur de sortie 6. 

L' unite 22 delivre egalement les valeurs des sous-vecteurs residuels 
quantifies, qui forment le vecteur rcx_q[n]. Celui-ci est retarde d'une trame en 
23, et ses composantes sont multipliees par les coefficients a(i) en 24 pour 
foumir le vecteur a I'entree negative du soustracteur 20. Ce dernier vecteur est 
d' autre part fourni a un additionneur 25, dont I' autre entree regoit un vecteur 
forme par les composantes du residu quantifie rcx_q[n] respectivement 
multipliees par les quantites 1-a(i) en 26. L'additionneur 25 delivre ainsi le 
vecteur cepstral quantifie cx_q[n] que recuperera le decodeur. 

Le coefficient de prediction a(i) peut etre optimise separement pour 
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chacun des coefficients cepstraux. Les dictionnaires de quantification peuvent 
aussi etre optimises separement pour chacun quatre sous-vecteurs cepstraux. 
□'autre part, it est possible, de fapon connue en soi, de normaliser les vecteurs 
cepstraux avant d'appliquer le schema de prediction/quantification, a partir de 
5 la variance des cepstres. 

II est a noter que le schema ci-dessus de quantification des coefficients 
cepstraux peut n'etre applique que pour certaines seulement des trames. Par 
exemple. on peut prevoir un second mode de quantification ainsi qu'un 
processus de selection de celui des deux modes qui minimise un critere de 

10 moindres carres avec les coefficients cepstraux a quantifier, et transmettre 
avec les index de quantification de la trame un bit indiquant lequel des deux 
modes a ete selectionne. 

Les coefficients cepstraux quantifies cx_sup_q = cx_q[n] fournis par 
Tadditionneur 25 sont adresses a un module 28 qui recalcule les amplitudes 

15 spectrales associees a une ou plusieurs des harmoniques de la frequence 
fondamentale Fq (figure 1). Ces amplitudes spectrales sont par exemple 

calculees sous forme comprimee, en appliquant la transformee de Fourier aux 
coefficients cepstraux quantifies en tenant compte de la distorsion non-lineaire 
de Techelle des frequences utilisee dans la transformation cepstrale. Les 
20 amplitudes ainsi recalculees sont foumies a un module d'adaptation 29 qui les 
compare a des amplitudes de maxima determinees par le module d' extraction 
9. 

Le module d' adaptation 29 controle le post-liftre 15 de fafon a 
minimiser un ecart de module entre le spectre du signal audio et les valeurs de 

25 module correspondantes calculees en 28. Get ecart de module peut etre 
exprime par une somme de valeurs absolues de differences ^amplitudes, 
comprimees ou non, correspondant a une ou plusieurs des frequences 
harmoniques. Cette somme peut etre ponderee en fonction des amplitudes 
spectrales associees a ces frequences. 

30 De fafon optimale, Tecart de module pris en compte dans Tadaptation 

du post-liftrage tiendrait compte de toutes les harmoniques du spectre. 
Cependant, afin de reduire la complexity de Toptimisation, le module 28 peut 
ne resynthetiser les amplitudes spectrales que pour une ou plusieurs 
frequences multiples de la frequence fondamentale Fq, selectionnees sur la 

35 base de T importance du module du spectre en valeur absolue. Le module 
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d' adaptation 29 peut par exemple considerer les trois pics spectraux les plus 
intenses dans le calcul de Tecart de module a minimiser. " 

Dans une autre realisation, le module d'adaptation 29 estime une 
courbe de masquage spectral du signal audio au moyen tfun modele 
5 psychoacoustique. et les frequences prises en compte dans le calcul de Tecart 
de module a minimiser sont selectionnees sur la base de importance du 
module du spectre relativement a la courbe de masquage (on peut par 
exemple prendre les trois frequences pour lesquelles le module du spectre 
depasse le plus de la courbe de masquage). Differentes methodes classiques 

10 sont utilisables pour calculer la courbe de masquage a partir du signal audio. 
On peut par exemple utiliser celle developpee par J.D. Johnston (« Transform 
Coding of Audio Signals Using Perceptual Noise Criteria », IEEE Journal on 
Selected Area in Communications, Vol. 6, No. 2, fevrier 1 988). 

Pour realiser Tadaptation du post-liftrage, le module 29 peut utiliser un 

15 modele tf identification de filtre. Une methode plus simple consiste a predefinir 
un ensemble de jeux de parametres de post-liftrage. c'est-a-dire un ensemble 
de couples y^,Y2 dans le cas rfun post-liftrage selon les relations (8). a 

effectuer les operations incombant aux modules 15, 16, 18 et 28 pour chacun 
de ces jeux de parametres, et a retenir celui des jeux de parametres qui 

20 conduit a I'ecart de module minimal entre le spectre du signal et les valeurs 
recalculees, Les index de quantification foumis par le module 18 sont alors 
ceux qui se rapportent au meilleur jeu de parametres. 

Par un processus analogue a celui de T extraction des coefficients 
cx_sup representant I'enveloppe superieure comprimee LX_sup du spectre du 

25 signal, le codeur determine des coefficients cx_inf representant une enveloppe 
inferieure comprimee LXJnf. Un module 30 extrait du spectre comprime LX 
des amplitudes spectrales associees a des frequences situees dans des zones 
du spectre intermediaires par rapport aux frequences multiples de la frequence 
fondamentale estimee Fq. 

30 Dans I'exemple illustre par les figures 4 et 5, cheque amplitude 

associee a une frequence situee dans une zone intermediaire entre deux 
harmoniques successives R.Fq et (k+1).FQ correspond simplement au module 

du spectre pour la frequence (k+1/2).Fo situee au milieu de Tintervalle separant 

les deux harmoniques. Dans une autre realisation, cette amplitude pourrait etre 
35 une moyenne du module du spectre sur une petite plage entourant cette 
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frequence (k+1/2).FQ. 

Un module 31 precede a une interpolation, par exemple lineaire, des 
amplitudes spectrales associees aux frequences situees dans ies zones 
intermediaires pour obtenir I'enveloppe inferieure comprimee LXJnf. 
5 La transformation cepstrale appliquee a cette enveloppe inferieure 

comprimee LX_inf est effectuee suivant une echelle de frequences resultant 
d'une distorsion non-lineaire appliquee par un module 32. Le module de TFRi 
33 calcule un vecteur cepstral de NCI coefficients cepstraux cx_inf d'ordres 0 a 
NCI-1 representant T enveloppe inferieure. NCI est un nombre qui peut etre 
10 sensiblement plus petit que NCS, par exemple NCI = A. 

La transformation non-lineaire de T echelle des frequences pour la 
transformation cepstrale de r enveloppe inferieure peut etre realisee vers une 
echelle plus fine aux hautes frequences qu'aux basses frequences, ce qui 
permet avantageusement de bien modeliser Ies composantes non-voisees du 
15 signal aux hautes frequences. Toutefois, pour assurer une homogeneite de 
representation entre T enveloppe superieure et I'enveloppe inferieure, on pourra 
preferer adopter dans le module 32 la meme echelle que dans le module 12 
(Mel dans I'exemple considere). 

Les coefficients cepstraux cx_inf representant Tenveioppe inferieure 
20 comprimee sont quantifies par un module 34, qui peut fonctionner de la meme 
maniere que le module 18 de quantification des coefficients cepstraux 
representant I'enveloppe superieure comprimee. Dans le cas considere, ou on 
se limite a NCI = 4 coefficients cepstraux pour I'enveloppe inferieure, le vecteur 
ainsi forme est soumis a une quantification vectorielle de residu de prediction, 
25 effectuee par des moyens identiques a ceux representes sur la figure 6 mais 
sans subdivision en sous-vecteurs. L'index de quantification icx = icxi 
determine par le quantificateur vectoriel 22 pour chaque trame relativement aux 
coefficients cxjnf est fourni au multiplexeur de sortie 6 du codeur. 

Le codeur represents sur la figure 1 ne comporte aucun dispositif 
30 particulier pour coder les phases du spectre aux harmoniques du signal audio. 

En revanche, il comporte des moyens 36-40 pour coder une 
information temporelle liee a la phase de la composante non-harmonique 
representee par I'enveloppe inferieure. 

Un module 36 de decompression spectrale et un module 37 de TFRI 
35 ferment une estimation temporelle de la trame de la composante non- 
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harmonique. Le module 36 applique une fonction de decompression reciproque 
de la fonction de compression appliquee par le module 8 (c'est-a-dire une 
exponentielle ou une fonction puissance l/y) a Tenveloppe inferieure 
comprimee LX_inf produite par le module d' interpolation. 31. Ceci foumit le 
5 module de la trame estimee de la composante non-harmonique, dont la phase 
est prise egale a celle cp^ du spectre du signal X sur la trame. La transformee 

de Fourier inverse effectuee par le module 37 foumit la trame estimee de ia 
composante non-harmonique. 

Le module 38 subdivise cette trame estimee de la composante non- 
10 harmonique en plusieurs segments temporels. La trame delivree par le module 
37 se composant de 2N = 512 echantillons ponderes comme illustre par la 
figure 3. le module 38 considere seulement les N/2 = 128 premiers echantillons 
et les N/2 = 128 derniers echantillons, et les subdivise par exemple en 
huit segments de 32 echantillons consecutifs representant chacun 4 ms de 
15 signal. 

Pour chaque segment, le module 38 calcule Tenergie egale a la 
somme des carres des echantillons, et forme un vecteur El forme de 
huit composantes reelles positives egales aux huit energies calculees. La plus 
grande de ces huit energies, notee EM, est egalement determinee pour etre 

20 fournie, avec le vecteur El, a un module de normalisation 39. Celui-ci divise 
chaque composante du vecteur E1 par EM, de sorte que le vecteur normalise 
Emix est forme de huit composantes comprises entre 0 et 1. C'est ce vecteur 
normalise Emix, ou vecteur de ponderation, qui est soumis a la quantification 
par le module 40. Celui-ci peut operer une quantification vectorielle avec un 

25 dictionnaire determine lors tfun apprentissage prealable. L' index de 
quantification iEm est fourni par le module 40 au multiplexeur de sortie 6 du 
codeur. 

La figure 7 montre une variante de realisation des moyens employes 
par le codeur de la figure 1 pour determiner le vecteur Emix de ponderation 
30 energetique de la trame de la composante non-harmonique. Les modules 36, 
37 de decompression spectrale et de TFRI fonctionnent comme ceux qui 
portent les memes references sur la figure 1 . Un module de selection 42 est 
ajoute pour determiner la valeur du module du spectre soumis a la transformee 
de Fourier inverse 37, Sur la base de la frequence fondamentale estimee Fq, le 

35 module 42 identifie des regions harmoniques et des regions non-harmoniques 
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du spectre du signal audio. Par example, une frequence sera consideree 
connme appartenant a une region harmonique si elle se trouve dans un 
intervalle de frequences centre sur une harmonique K-Fq et de largeur 
correspondant a une largeur de raie spectrale synthetisee, et a une region non- 
5 harmonique sinon. Dans les regions non-harmoniques, le signal complexe 
soumis a la TFRI 37 est egal a la valeur du spectre, c'est-a-dire que son 
module et sa phase correspondent aux valeurs |X| et cp^ foumies par le module 

de TFR 3. Dans les regions harmoniques, ce signal complexe a la meme 
phase (py^ que le spectre et un module donne par Tenveloppe inferieure apres 

10 decompression spectrale 36. Cette fapon de proceder selon la figure 7 procure 
une modelisation plus precise des regions non-harmoniques. 

Le decodeur represents sur la figure 8 comprend un demultiplexeur 
d'entree 45 qui extrait du flux binaire a>, issu d'un codeur selon la figure 1, les 
index iF, icxs, icxi, iEm de quantification de la frequence fondamentale Fq, des 

15 coefficients cepstraux representant Tenveloppe superieure comprimee, des 
coefficients representants Tenveloppe inferieure comprimee, et du vecteur de 
ponderation Emix, et les distribue respectivement a des modules 46, 47, 48 et 
49. Ces modules 46-49 comportent des dictionnaires de quantification 
semblables a ceux des modules 5, 18, 34 et 40 de la figure 1, afin de restituer 

20 les valeurs des parametres quantifies. Les modules 47 et 48 ont des 
dictionnaires pour former les residus de prediction quantifies rcx_q[n], et ils en 
deduisent les vecteurs cepstraux quantifies cx_q[n] avec des elements 
identiques aux elements 23-26 de la figure 6. Ces vecteurs cepstraux 
quantifies cx_q[n] foumissent les coefficients cepstraux cx_sup_q et cx_inf_q 

25 traites par le decodeur. 

Un module 51 calcule la transformee de Fourier rapide des coefficients 
cepstraux cx_sup pour chaque trame de signal. L'echelle des frequences du 
spectre comprime qui en resulte est modifiee non-lineairement par un module 
52 appliquant la transformation non-lineaire reciproque de celle du module 12 

30 de la figure 1, et qui fournit Testimation LX_sup de I'enveloppe superieure 
comprimee. Une decompression spectrale de LX_sup, operee par un module 
53, foumit Tenveloppe superieure X_sup comportant les valeurs estimees du 
module du spectre aux frequences multiples de la frequence fondamentale Fq, 

Le module 54 synthetise Testimation spectrale de la composante 



wo 01/03120 




PCT/FROO/01908 



- 16- 



harmonique du signal audio, par une somme de raies spectrales centrees sur 
les frequences multiples de la frequence fondamentale Fq et dont les 
amplitudes (en module) sont celles donnees par Tenveloppe superieure X_sup. 
Bien que le flux numerique rf entree O ne comporte pas rf informations 

5 specifiques sur la phase du spectre du signal aux harmoniques de la frequence 
fondamentale, le decodeur de la figure 8 est capable d'extraire de T information 
sur cette phase a partir des coefficients cepstraux cx_sup_q representant 
Tenveloppe superieure comprimee. Cette information de phase est utiiisee pour 
affecter une phase (p(k) a chacune des raies spectrales determinees par le 

10 module 54 dans Testimation de la composante harmonique du signal. 

En premiere approximation, le signal de parole peut etre considere 
comma etant a phase minimale. D' autre part, il est connu que T information de 
phase minimale peut se deduire facilement d'une modelisation cepstrale. Cette 
information de phase minimale est done calculee pour chaque frequence 

15 harmonique. Lhypothese de phase minimale signifie que I'energie du signal 
synthetise est localisee au debut de chaque periode de la frequence 
fondamentale Fq. 

Pour etre plus proche d'un signal de parole reel, on introduit un peu de 
dispersion au moyen d'un post-liftrage specifique des cepstres lors de la 
20 synthese de la phase. Avec ce post-liftrage, effectue par le module 55 de la 
figure 8, il est possible d'accentuer les resonances formantiques de Tenveloppe 
et done de eontroler la dispersion des phases. Ce post-liftrage est par example 
de la forme (8). 

Pour limiter les ruptures de phase, il est preferable de lisser les 
25 coefficients cepstraux post-liftres, ce qui est effectue par le module 56. Le 
module 57 deduit des coefficients cepstraux post-liftres et lisses la phase 
minimale affectee a chaque raie spectrale representant un pic harmonique du 
spectre. 

Les operations effectuees par les modules 56, 57 de lissage et 
30 d'extraction de la phase minimale sont illustrees par Torganigramme de la 
figure 9. Le module 56 examine les variations des coefficients cepstraux pour 
appliquer un lissage moins important en presence de variations brusques qu'en 
presence de variations lentes. Pour cela, 11 effectue le lissage des coefficients 
cepstraux au moyen d'un facteur rfoubli choisi en fonction tfune 

35 comparaison entre un seuil d«^ et une distance d entre deux jeux successifs de 
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coefficients cepstraux post-liftres. Le seuil d^^ est lui-meme adapte en fonction 

des variations des coefficients cepstraux. 

La premiere etape 60 consiste a calculer la distance d entre les deux 
vecteurs successifs relatifs aux trames n-1 et n. Ces vecteurs, notes ici 
5 cxp[n-1] et cxp[n], correspondent pour chaque trame a Tensemble des NCS 
coefficients cepstraux post-liftres representant Tenveloppe superieure 
comprimee. La distance utilisee peut notamment etre la distance euclidienne 
entre les deux vecteurs ou encore une distance quadratique. 

Deux lissages sont d'abord effectues, respectivement au moyen de 

10 facteurs d'oubli X^^^ et ^.^ax' P*^^'' determiner une distance minimale d^^jp et 
une distance maximale d^^^. Le seuil d^^ est ensuite determine a Tetape 70 
comme etant situe entre les distances minimale et maximale d^j^, d^^^ • 
^th " P-^max (''"P)-^min» '® coefficient p etant par exemple egal a 0.5. 

Dans Texemple represents, les facteurs d'oubli X^^^ et X^^ sont eux- 

15 memes selectionnes parmi deux valeurs distinctes, respectivement ?^rnini' ^min2 
®* ^maxl» \nax2 comprises entre 0 et 1, les indices X^^^^, ^maxl chacun 
sensiblement plus pres de 0 que les indices X^ij^2^ ^max2- Si d > d^jp (test 61 ), 
le facteur d'oubli X^^^ est egal a X^^^^ (etape 62) ; sinon il est pris egal a X^in2 
(etape 63). A Tetape 64, la distance minimale d^^jp est prise egale a 

20 + (l-^min) ^. Si d > d^^^ (test 65), le facteur tf oubli X^^ est egal a 

^maxl (®t3P6 66) ; sinon il est pris egal a ^rnax2 (^t^pe 67). A Tetape 68. la 

distance minimale d^^^ est prise egale a X^^.d^^ + {^^X^^yd, 

Si la distance d entre les deux vecteurs cepstraux consecutifs est plus 
grande que le seuil d^^ (test 71), on adopte pour le facteur tf oubli X^ une valeur 

25 X^^ relativement proche de 0 (etape 72). On considere dans ce cas que le 

signal correspondant est de type non stationnaire, de sorte qu'il rfy a pas lieu 
de conserver une grande memoire des coefficients cepstraux anterieurs. Si 
d < d^j^, on adopte a Petape 73 pour le facteur d'oubli X^ une valeur X^ moins 

proche de 0 afin de iisser davantage les coefficients cepstraux. Le lissage est 
30 effectue a T etape 74, ou le vecteur cxl[n] de coefficients lisses pour la trame 
courante n est determine par : 
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cxl[n] = Xo^ox\[r\-^] + (1 - Xc )cxp[n] (11) 
Le module 57 calcuie ensuite les phases minimales (p(k) associees aux 
harmoniques R.Fq. De fapon connue, la phase minimale pour une harmonique 
ordre k est donnee par : 

NCS-'l 

5 (p(k) = -2. 2] cxl[n,m].sin(27rmkFo/Fe) (12) 

m=l 

ou cxl[n,m] designe le coefficient cepstral lisse d'ordre m pour la trame n. 

A Tetape 75, I'index d'harmonique k est initialise a 1. Pour initialiser le 
calcul de la phase minimale affectee a T harmonique k, la phase cp(k) et I'index 
cepstral m sont initialises respectivement a 0 et 1 a I'etape 76. A Tetape 77, le 
10 module 57 ajoute a la phase cp(k) la quantite -2.cxl[n,m].sin(27rmk.FQ/Fg). 

U index cepstral m est incremente a I'etape 78 et compare a NCS a Tetape 79. 
Les etapes 77 et 78 sont repetees tant que m < NCS. Quand m = NCS, le 
calcul de la phase minimale est termine pour Tharmonique k, et I'index k est 
incremente a Tetape 80. Le calcul de phases minimales 76-79 est renouvele 
15 pour I'harmonique suivante tant que k.Fg < Fg/2 (test 81). 

Dans Texemple de realisation selon la figure 8, le module 54 tient 
compte d'une phase constante sur la largeur de chaque rale spectrale. egale a 
la phase minimale <p(k) fournie pour I'harmonique correspondante k par le 
module 57. 

20 Uestimation \ de la composante harmonique est synthetisee par 

sommation de raies spectrales positionnees aux frequences harmoniques de la 
frequence fondamentale Fq. Lors de cette synthese, on peut positionner les 

raies spectrales sur Taxe des frequences avec une resolution superieure a la 
resolution de la transformee de Fourier. Pour cela, on precalcule une fois pour 
25 toutes une raie spectrale de reference selon la resolution superieure. Ce calcul 

peut consister en une transformee de Fourier de la fenetre d' analyse fA avec 

une taille de transformee de 16384 points, procurant une resolution de 0,5 Hz 
par point La synthese de chaque raie harmonique est alors effectuee par le 
module 54 en positionnant sur Taxe des frequences la raie de reference a 
30 haute resolution, et en sous-echantillonnant cette raie spectrale de reference 
pour se ramener a la resolution de 16,625 Hz de la transformee de Fourier sur 
512 points. Ceci permet de positionner avec precision la raie spectrale. 
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Pour la determination de Tenveloppe inferieure, le module de TFR 85 
du decodeur de la figure 8 regoit les NCI coefficients cepstraux quantifies 
cxjnf_q d'ordres 0 a NCI-1. et il les complete avantageusement par les 
NCS - NCI coefficients cepstraux cx_sup_q d'ordre NCI a NCS - 1 
5 representant Tenveloppe superieure. En effet, on peut estimer en premiere 
approximation que les variations rapides de Tenveloppe inferieure comprimee 
sont bien reproduites par celles de Tenveloppe superieure comprimee. Dans 
une autre realisation, le module de TFR 85 pourrait ne considerer que les NCI 
parametres cepstraux cxjnf_q. 

10 Le module 86 convertit Techelle de frequences de maniere reciproque 

de la conversion operee par le module 32 du codeur, afin de restituer 
Testimation LX_inf de Tenveloppe inferieure comprimee, soumise au module de 
decompression spectrale 87. En sortie du module 87, le decodeur dispose 
d'une enveloppe inferieure XJnf comportant les valeurs du module du spectre 

15 dans les vallees situees entre les pics harmoniques. 

Cette enveloppe XJnf va moduler le spectre tf une trame de bruit dont 
la phase est traitee en fonction du vecteur de ponderation quantifie Emix extrait 
par le module 49. Un generateur 88 delivre une trame de bruit normalise dont 
les segments de 4 ms sont ponderes dans un module 89 conformement aux 

20 composantes normalisees du vecteur Emix fourni par le module 49 pour la 
trame courante. Ce bruit est un bruit blanc filtre passe-haut pour tenir compte 
du faible niveau qu*a en principe la composante non-voisee aux basses 
frequences. A partir du bruit pondere en energie, le module 90 forme des 
trames de 2N = 512 echantillons en appliquant la fenetre rfanalyse f^, 

25 r insertion de 256 echantillons a zero et la permutation circulaire pour la 
compensation de phase conformement a ce qui a ete explique en reference a 
la figure 3. La transformee de Fourier de la trame resultante est calculee par le 
module TFR 91. 



30 determinee par le module de synthese spectrale 92 qui effectue une 
ponderation frequence par frequence. Cette ponderation consiste a multiplier 
chaque valeur spectrale complexe fournie par le module de TFR 91 par la 
valeur de I'enveloppe inferieure XJnf obtenue pour la meme frequence par le 
module de decompression spectrale 87. 

35 Les estimations spectrales X^, X^^ des composantes harmonique 



Uestimation spectrale X^^ de la composante non-harmonique est 
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(voisee dans le cas tf un signal de parole) et non-harmonique (ou non-voisee) 
sont combinees par un module de mixage 95 controle par un module 96 
tf analyse du degre d'harmonicite (ou de voisement) du signal. 

Uorganisation de ces modules 95. 96 est illustree par la figure 10. Le 
5 module d'analyse 96 comporte une unite 97 tfestimation tfun degre de 
voisement W dependant de ia frequence, a partir duquel sont calcules quatre 
gains dependant de la frequence, a savoir deux gains g^, gyv controlant 
r importance relative des composantes harmonique et non-harmonique dans le 
signal synthetise, et deux gains g^^^, g^^^^ utilises pour bruiter la phase de la 

10 composante harmonique. 

Le degre de voisement W(i) est une valeur a variation continue 
comprise entre 0 et 1 determinee pour chaque index de frequence i (0 < i < N) 
en fonction de I'enveloppe superieure X_sup(i) et de Tenveloppe inferieure 
XJnf(i) obtenues pour cette frequence i par ies modules de decompression 53, 

15 87. Le degre de voisement W(i) est estime par r unite 97 pour chaque index de 
frequence i correspondent a une harmonique de la frequence fondamentale Fq, 



a savoir i = 



Fe 2^ 



pour k=1.2,..,, par une fonction croissante du 



rapport entre I'enveloppe superieure X_sup et I'enveloppe inferieure XJnf a 
cette frequence, par exemple selon la formula : 

W(i) = min{l,15J2gi2l=^f^«^^ (13) 

Le seuil Vth(Fo) correspond a la dynamique moyenne caiculee sur un spectre 
synthetique purement voise a la frequence fondamentale. II est 
avantageusement choisi dependant de la frequence fondamentale Fq. 

Le degre de voisement W(i) pour une frequence autre que Ies 
25 frequences harmoniques est obtenu simplement comme etant egal a celui 
estime pour T harmonique la plus proche. 

Le gain g^(\), qui depend de la frequence, est obtenu en appliquant une 

fonction non-lineaire au degre de voisement W(i) (bloc 98). Cette fonction non- 
lineaire a par exemple la forme representee sur la figure 1 1 : 
30 gv(0 = O siO<W(i)<W1 

g (i) = ^(^"^"i si W1 < W(i) < W2 (14) 
W2-W1 
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9^(0 = 1 siW2<W(i)<1 
les seuils W1, W2 etant tels que 0<W1 <W2<1. Le gain g^^^ peut etre 
calcule de maniere semblable au gain g^ (la somme des deux gains g^, g^^ 

etant constants, par exemple egale a 1 ), ou deduit simplement de celui-ci par 
5 la relation g^y{\) = 1 - 9^(1), comme schematise par le soustracteur 99 sur la 
figure 1 0. 

II est interessant de pouvoir bruiter la phase de la composante 
harmonique du signal a une frequence donnee si T analyse du degre de 
voisement montre que le signal est plutot de type non-harmonique a cette 

10 frequence. Pour cela, la phase cp!^ de la composante harmonique mixee est le 

resultat d'une combinaison lineaire des phases (p^, cp^j^ des composantes 

harmonique et non-harmonique X^. X^^ synthetisees par les modules 54, 92. 

Les gains g^ ^. g^^ ^ respectivement appliques a ces phases sont calcules a 

partir du degre de voisement W et ponderes egalement en fonction de i'index 
15 de frequence i, etant donne que le bruitage de la phase n'est veritablement 
utile qu'au-dela d'une certaine frequence. 

Un premier gain g^-, ^ est calcule en appliquant une fonction non- 

lineaire au degre de voisement W(i), comme schematise par le bloc 100 sur la 
figure 10. Cette fonction non-lineaire peut avoir la forme representee sur la 
20 figure 12: 

9vl_<p(i) = G1 siO<W(i)<W3 

gvl.cp(0 = G1 + (1 - Gl)^^^^f^ si W3 < W(i) < W4 (15) 

gvl.(p(i) = 1 siW4<W(i)<1 
les seuils W3 et W4 etant tels que 0 < W3 < W4 < 1, et le gain minimal G1 
25 etant compris entre 0 et 1 . 

Un multiplieur 101 multiplie pour chaque frequence d'index i le gain 
9vi <p P^"" autre gain gy2 <p dependant seulement de I'index de frequence i, 
pour former le gain g^ ^p(i). Le gain gy^2 q>(0 depend non-lineairement de I'index 
de frequence i, par exemple comme indique sur la figure 13 : 

9v2.cp(0 = 1 siO<i^i1 

9v2_<p(0=1-(l-G2)^ sii1<i<i2 (16) 



30 
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9v2.q,(i) = G2 sii2<i<1 

les index i1 et \2 etant tels que 0 < i1 < i2 < N. et le gain minimal G2 etant 
compris entre 0 et 1. Le gain g^,^ ^(i) peut etre calcule simplement comma 

etant egal a 1 -g^^^(i)= 1 - gvi_cp(')-9v2.<p(') (soustracteur 102 de la figure 
5 10). 

Le spectre complexe Y du signal synthetise est produit par le module 
de mixage 95, qui realise la relation de mixage suivante, pour 0 < i < N : 

Y(i) = gv(i).|Xv(it expDcpUO] + QuvO)- ^uvO) (17) 

avec (pv(i) = g^^^Ci). (p^{\) + guv^cpO)- cPuv(') C^) 

10 ou (py(i) designe !' argument du nombre complexe Xy{\) fourni par le module 54 

pour la frequence tf index 1 (bloc 104 de la figure 10), et (Pyv(i) designe 

{'argument du nombre complexe X^^{i) fourni par le module 92 (bloc 105 de la 

figure 10). Cette combinaison est realisee par les multipiieurs 106-110 et les 
additionneurs 111-112 representes sur la figure 10. 

15 Le spectre mixe Y(i) pour 0 < i < 2N (avec Y(2N-1-i) =Y(i)) est ensuite 

transforme dans le domaine temporel par ie module de TFRI 115 (figure 8). On 
ne retient que les N/2 = 128 premiers et les N/2 = 128 derniers echantillons de 
la trame de 2N = 512 echantillons produite par le module 115, et on applique la 
permutation circulaire inverse de celle illustree par la figure 3 pour obtenir la 

20 trame synthetisee de N = 256 echantillons ponderes par la fenetre tf analyse f;^. 

Les trames successivement obtenues de cette maniere sont finalement 
traitees par le module de synthese temporelle 116 qui forme le signal audio 
decode x . 

Le module de synthese temporelle 116 effectue une somme a 
25 recouvrement de trames modifiees par rapport a celles successivement 
evaluees en sortie du module 115. La modification peut etre vue en deux 
etapes illustrees respectivement par les figures 14 et 15. 

La premiere etape (figure 14) consiste a multiplier chaque trame 2 
delivree par le module de TFRI 115 par une fenetre Mip^ inverse de la fenetre 

30 d' analyse f^ employee par le module 1 du codeur. Les echantillons de la trame 

2" qui en resultent sont done ponderes uniformement. 

La seconde etape (figure 15) consiste a multiplier les echantillons de 
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cette trame 2" par une fenetre de synthase fg verifiant les proprietes suivantes : 



ou A designe une constante positive arbitraire, par exemple A= 1. La fenetre 
de synthese fs(i) croTt progressivement de 0 a A pour i allant de 0 a L. C'est par 
exemple une demi-sinusoide sureievee : 



Apres avoir repondere chaque trame 2" par la fenetre de synthese fg, 
le module 116 positionne les frames successives avec leurs decalages 
temporels de M = 160 echantillons et leurs recouvrements temporals de L = 96 
echantillons, puis il effectue la somme des frames ainsi positionnees dans le 
temps. Du fait des proprietes (19) et (20) de la fenetre de synthese fg, chaque 

echantillon du signal audio decode x ainsi obtenu est affecte d'un poids global 
uniforme, 6gal d A. Ce poids global provient de la contribution d'une trame 
unique si I'echantlllon a dans cette frame un rang i tel que L < i < N - L, et 
comporte les contributions sommees de deux frames successives si 0 < i < L 
ou N - L ^ i < N. 

On peut ainsi effectuer la synthese temporelle de fagon simple meme 
si, comme dans le cas consid6r6, le recouvrement L entre deux frames 
successives est plus petit que la moiti6 de la faille N de ces frames. 

Les deux etapes exposees ci-dessus pour la modification des frames 
de signal peuvent etre fusionnees en une seule etape. II suffit de precalculer 
une fenetre composee f^ii) = lQ(i)/f^{\), et de multiplier simpiement les frames 
2' de N = 256 echantillons delivrees par le module 1 15 par la fenetre composee 
Iq avant d'effecfuer la sommation a recouvrement. 

La figure 16 montre I'allure de la fenetre composee f^ dans le cas oCi la 
fenetre d'analyse f;^ est une fenetre de Hamming et la fenetre de synthese fg a 
la forme donnee par les relations (19) a (21). 

D'autres formes de la fen§tre de synthese fg verifiant les relations (19) 

et (20) peuvent etre employees. Dans la variante de la figure 17, c'est une 
fonction affine par morceaux definie par : 



fs(N-L+i) + fs(i) = A pour 0 < i < L 
^s(') - A PO'Jr L < i < N-L 



(19) 



(20) 




(21) 



= A.i/L pour 0 < i < L 



(22) 
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Afin d'ameiiorer la qualite de codage du signal audio, le codeur de la 
figure 1 peut augmenter la cadence de formation et d' analyse des trames, afin 
de transmettre davantage de parametres de quantification au decodeur. Dans 
ia structure de trame representee sur la figure 2, une trame de N = 256 
5 echantillons (32 ms) est formee toutes les 20 ms. Ces trames de 256 
echantillons pourraient etre formees a une cadence superieure, par exemple 
de 1 0 ms, deux trames successives ayant alors un decalage de M/2 = 80 
echantillons et un recouvrement de 176 echantillons. 

Dans ces conditions, on peut transmettre les jeux complets de 

10 parametres de quantification iF, icxs, icxi, iEm pour seulement un sous- 
ensemble des trames, et transmettre pour les autres trames des parametres 
permettant d'effectuer une interpolation adequate au niveau du decodeur. Dans 
r exemple envisage ci-dessus, le sous-ensemble pour lequel des jeux de 
parametres complets sont transmis peut etre constitue par les trames de rang 

15 entier n, dont la periodicite est de M/F^ = 20 ms, et les trames pour lesquelles 

une interpolation est effectuee peuvent etre celles de rang demi-entier n + 1/2 
qui sont decalees de 1 0 ms par rapport aux trames du sous-ensemble. 

Dans la realisation iliustree par la figure 18, les notations cx_q [n-1] et 
cx_q[n] designent des vecteurs cepstraux quantifies determines, pour deux 

20 trames successives de rang entier, par le module de quantification 18 et/ou par 
le module de quantification 34. Ces vecteurs comprennent par exemple quatre 
coefficients cepstraux consecutifs chacun. lis pourraient egalement 
comprendre davantage de coefficients cepstraux. 

Un module 120 effectue une interpolation de ces deux vecteurs 

25 cepstraux cx_q[n-1] et cx_q[n], afin d'estimer une valeur intermediaire 
cxJ[n-1/2]. L interpolation effectuee par le module 120 peut etre une simple 
moyenne arithmetique des vecteurs cx_q[n-1] et cx_q[n]. En variante, le 
module 120 pourrait appliquer une formule interpolation plus sophistiquee, 
par exemple polynomiale, en se fondant egalement sur les vecteurs cepstraux 

30 obtenus pour des trames anterieures a la trame n-1. Dautre part, si plus tfune 
trame interpolee est intercalee entre deux trames consecutives de rang entier, 
r interpolation tient compte de la position relative de chaque trame interpolee. 

A Taide des moyens precedemment decrits, le codeur calcule 
egalement les coefficients cepstraux cx[rv-1/2] relatifs a la trame de rang demi- 

35 entier. Dans le cas de Tenveloppe superieure. ces coefficients cepstraux sont 



wo 01/03120 




PCT/FROO/01908 



-25- 



ceux f oumis par le module de TFRI 1 3 apres post-liftrage 1 5 (par exemple avec 
les memes coefficients de post-liftrage que pour la trame precedente et 
normalisation 16. Dans le cas de Tenveloppe inferieure, les coefficients 
cepstraux cx[n-1/2] sont ceux delivres par le module de TFRI 33. 
5 Un soustracteur 121 forme la difference ecx[n-1/2] entre les 

coefficients cepstraux cx[n-1/2] calcules pour la trame de rang demi-entier et 
les coefficients cxJ[n-1/2] estimes par interpolation. Cette difference est 
fournie a un module de quantification 122 qui adresse des index de 
quantification icx[n-1/2] au multiplexeur de sortie 6 du codeur. Le module 122 

10 fonctionne par exemple par quantification vectorielle des erreurs d' interpolation 
ecx[n-1/2] successivement determinees pour les trames de rang demi-entier. 

Cette quantification de Terreur d' interpolation peut etre effectuee par le 
codeur pour chacun des NCS + NCI coefficients cepstraux utilises par le 
decodeur, ou seulement pour certains d'entre eux, typiquement ceux d'ordres 

15 les plus petits. 

Les moyens correspondants du decodeur sont illustres par la figure 19. 
Le decodeur fonctionne essentiellement comme celui decrit en reference a la 
figure 8 pour determiner les trames de signal de rang entier. Un module 
^interpolation 124 identique au module 120 du codeur estime les coefficients 

20 intermediaires cx_i[n-1/2] a partir des coefficients quantifies cx_q[n-1] et 
cx_q[n] fournis par le module 47 et/ou le module 48 a partir des index icxs, icxi 
extraits du flux <D. Un module tf extraction de parametres 125 re?oit Tindex de 
quantification icx[n-1/2] depuis le demultiplexeur rfentree 45 du decodeur, et 
en deduit Terreur d' interpolation quantifiee ecx_q[n-1/2] a partir du meme 

25 dictionnaire de quantification que celui utilise par le module 122 du codeur. Un 
additionneur 126 fait la somme des vecteurs cepstraux cxJ[n-1/2] et 
ecx_q[r>-1/2] afin de fournir les coefficients cepstraux cx[rv-1/2] qui seront 
utilises par le decodeur (modules 51-57, 95, 96, 115 et/ou modules 85-87, 92, 
95, 96, 115) pour former la trame interpolee de rang n-1/2. 

30 Si certains seulement des coefficients cepstraux ont fait Tobjet tf une 

quantification d'erreur tf interpolation, les autres sont determines par le 
decodeur par une interpolation simple, sans correction. 

Le decodeur peut egalement interpoler les autres parametres Fq, Emix 
utilises pour synthetiser les trames de signal. La frequence fondamentale Fq 

35 peut etre interpolee lineairement, soit dans le domaine temporel. soit (de 
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preference) directement dans le domaine frequentiel. Pour T interpolation 
eventuelle du vecteur de ponderation energetique Emix, 11 convient d'effectuer 
r interpolation apres denormalisation et en tenant compte bien entendu des 
decalages temporels entre trames. 
5 II est a noter qu'il est particulierement avantageux, pour interpoler la 

representation des enveloppes spectrales, d'effecluer cette interpolation dans 
ie domaine cepstraL Contrairement a une interpolation effectuee sur d'autres 
parametres, tels que les coefficients LSP {« Line Spectrum Pairs »), 
r interpolation lineaire des coefficients cepstraux correspond a interpolation 

10 lineaire des amplitudes spectrales comprimees. 

Dans la variante representee sur la figure 20, le codeur utilise les 
vecteurs cepstraux cx_q[n], cx_q[n-1], cx_q[n-r] et cx_q[n-1/2] calcules 
pour les dernieres trames passees (r > 1 ) pour identifier un filtre interpolateur 
optimal qui, lorsqu'on lui soumet les vecteurs cepstraux quantifies cx_q[n-r], 

15 cx_q[n] relatifs aux trames de rang entier, delivre un vecteur cepstral 

interpole cxJ[n-1/2] qui presente une distance minimale avec le vecteur 
cx[n-1/2] calcule pour la derniere trame de rang demi-entier. 

Dans Texemple represents sur la figure 20, ce filtre interpolateur 128 
est present dans le codeur, et un soustracteur 129 retranche sa sortie 

20 cx_i[n-1/2] du vecteur cepstral calcule cx[n-1/2]. Un module de minimisation 
130 determine le jeu de parametres {P} du filtre interpolateur 128, pour lequel 
Terreur d' interpolation ecx[n-1/2] delivree par le soustracteur 129 presente une 
norme minimale. Ce jeu de parametres {P} est adresse a un module de 
quantification 131 qui foumit un index de quantification correspondant iP au 

25 multiplexeur de sortie 6 du codeur. 

En fonction du debit alloue dans le flux O aux index de quantification 
des parametres {P} definissant le filtre interpolateur optimal 128, on pourra 
adopter une quantification plus ou moins fine de ces parametres, ou une forme 
plus ou moins elaboree du filtre interpolateur, ou encore prevoir plusieurs filtres 

30 interpolateurs quantifies de maniere distincte pour differents vecteurs de 
coefficients cepstraux. 

Dans une realisation simple, le filtre interpolateur 128 est lineaire, avec 

r = 1 : 

cxJ[n-1/2] = p.cx_qtn-1 ] + {1-p).cx_q[n] (23) 
35 et le jeu de parametres {P} se limite au coefficient p compris entre 0 et 1 . 
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A partir des index iP de quantification des parametres {P} obtenus dans 
le flux binaire <p, le decodeur reconstruit le filtre interpolateur 128 (aux erreurs 
de quantification pres). et traite les vecteurs spectraux cx_q[n— r], .... cx_q[n] 
afin d'estimer les coefficients cepstraux cx[n-1/2] utilises pour synthetiser les 
5 trames de rang demi-entier. 

De fagon generale, le decodeur peut utiliser une methode 
d' interpolation simple (sans transmission de parametres de la part du codeur 
pour les trames de rang demi-entier), une methode rf interpolation avec prise 
en compte tfune erreur d' interpolation quantifiee (selon les figures 17 et 18), ou 

10 une methode tf interpolation avec un filtre interpolateur optimal (selon la figure 
19) pour evaluer les trames de rang demi-entier en plus des trames de rang 
entier evaluees directement comme explique en reference aux figures 8 a 13. 
Le module 116 de synthese temporelle peut alors combiner Tensemble de ces 
trames evaluees pour former le signal synthetise x de la maniere expliquee ci- 

15 apres en reference aux figures 14, 21 et 22. 

Comme dans la methode de synthese temporelle precedemment 
decrite, le module 116 effectue une somme a recouvrement de trames 
modifiees par rapport a celles successivement evaluees en sortie du module 
115, et cette modification peut etre vue en deux etapes dont la premiere est 

20 identique a celle precedemment decrite en reference a la figure 14 (diviser les 

echantillons de la trame 2' par la fenetre d' analyse fA)- 

La seconde etape (figure 21 ) consiste a multiplier les echantillons de la 
trame renormalisee 2" par une fenetre de synthese fs verifiant les proprietes 
suivantes : 

25 fs(i) = 0 pour 0 < i < N/2 - M/p et N/2 + M/p < i <N (24) 

4(0 + fs(> + M/P) = A pour N/2 - M/p < i < N/2 (25) 
ou A designe une constante positive arbitraire, par exemple A= 1, et p est 
rentier tel que le decalage temporel entre les trames successives (calculees 
directement et interpolees) soit de M/p echantillons, soit p = 2 dans Texemple 

30 decrit. La fenetre de synthese fs(i) croit progressivement pour i allant de 
N/2 -M/p a N/2. Cest par exemple une sinusoYde surelevee sur I'intervalle 
N/2 - M/p < i < N/2 + M/p. En particulier, la fenetre de synthese fs peut etre. 
sur cet intervene, une fenetre de Hamming (comme represents sur la figure 21 ) 
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ou une fenetre de Manning. 

La figure 21 montre les trames successives 2" repositionnees dans le 
temps par le module 116. Les hachures indiquent les portions eliminees des 
trames (fenetre de synthese a 0). On voit qu'en effectuant la somme a 
5 recouvrement des echantillons des trames successives. la propriete (25) 
assure une ponderation homogene des echantillons du signal synthetise. 

Comme dans la methode de synthese illustree par les figures 14 et 15, 
la procedure de ponderation des trames obtenues par transformee de Fourier 
inverse des spectres Y peut etre effectuee en une seule etape, avec une 

10 fenetre composee fc(i) = fs(i)AA(0- La figure 22 montre la forme de la fenetre 

composee 1q dans le cas ou les fenetres f^^^ et fs sont de type Hamming, 

Comme la methode de synthese temporelle illustree par les figures 14 
a 17, celle illustree par les figures 14, 21 et 22 permet de prendre en compte 
un recouvrement L entre deux trames d'analyse (pour lesquelles Tanalyse est 

15 effectuee de fa^on complete) plus petit que la moitie que la taille N de ces 
trames. De fagon generate, cette demiere methode est applicable lorsque les 
trames d' analyse successives presentent des decalages temporels mutuels M 
de plus de N/2 echantillons (meme eventuellement de plus de N echantillons si 
un tres bas debit est requis), T interpolation conduisant a un ensemble de 

20 trames dont les decalages temporels mutuels sont de moins de N/2 
echantillons. 

Les trames interpolees peuvent faire Tobjet tf une transmission reduite 
de parametres de codage, comme decrit precedemment, mais cela n'est pas 
obligatoire. Ce mode de realisation permet de conserver un intervalle M 

25 relativement grand entre deux trames d'analyse, et done de limiter le debit de 
transmission requis, tout en limitant les discontinuites susceptibles rfapparaltre 
en raison de la taille de cet intervalle par rapport aux echelles de temps 
typiques des variations des parametres du signal audio, notamment les 
coefficients cepstraux et la frequence fondamentiale. 

30 Les figures 23 a 25 montrent d'autres formes de realisation des 

moyens employes pour traiter les coefficients cepstraux cx_sup delivres par le 
module de TFR1 13 de la figure 1. representant I'enveloppe superieure. 

Dans les trois cas, les modules de post-liftrage 15, de normalisation 16, 
de quantification 18 et de calcul des amplitudes spectrales 28 sont 

35 essentiellement identiques a ceux precedemment decrits en reference a la 
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figure 1. En outre, des modules de post-liftrage 140, de lissage 141 et 
d' extraction de phase minimale 142 sont prevus pour trailer les coefficients 
cepstraux post-liftres et quantifies cx_sup_q delivres par le module de 
quantification 18. Ces modules 140-142 fonctionnement essentiellement 
5 comme les modules correspondants 55-57 du decodeur de la figure 8. 

Dans la forme de realisation montree sur la figure 23, le module 
d' adaptation 144 accomplit une fonction semblable a celle du module 29 de la 
figure 1. Mais I'adaptation n'est pas realisee sur la seule base du module du 
spectre. Le module 144 determine le meilleur jeu de coefficients pour le post- 
10 liftre 15 en minimisant Tecart entre le spectre du signal audio, en module |X| et 
en phase cp^, et des valeurs complexes recalculees pour une ou plusieurs des 

harmoniques de la frequence fondamentale. Les modules de ces dernieres 
valeurs complexes sont donnees par le module de calcul 28, et leurs phases 
correspondent aux phases minimales cp(k) foumies par le module d' extraction 
16 142. Pour realiser I'adaptation, le module 144 peut prendre en compte toute 
distance appropriee dans ie plan complexe, par exemple la distance 
euclidienne. 

Ainsi, I'adaptation du post-1 iftre 15 par le module 144 tient compte de 
fagon combinee d'aspects frequentiels du signal, refletes par le module du 

20 spectre, et des aspects temporels. refletes par la phase du spectre. 

Comme represents en pointilles sur la figure 23, le post-liftre 140 peut 
egalement etre adaptatif, I'adaptation effectuee par le module 144 portent 
conjointement sur les deux post-liftres 15, 140. Dans ce cas, le post-liftre 55 du 
decodeur (figure 8) est adapte, comme le post-liftre 140, en fonction de 

25 parametres ILif que le module d'adaptation 144 fournit au multiplexeur 6 pour 
qu'il les indue dans le flux numerique O. Typiquement, quelques jeux de 
coefficients y^, sont prevus pour les post-liftres 140 et 55. et le module 144 

precede a un test exhaustif de ces differents jeux de coefficients pour retenir 
celui qui minimise I'ecart dans le plan complexe. 

30 Dans T exemple represents sur la figure 24, ie module d'adaptation 29 

du post-liftre 1 5 est identique a celui de la figure 1 . La figure 24 montre un 
module 145 rfestimation d'une courbe de masquage permettant au module 29 
de selectionner, pour la minimisation de Tecart en module, la ou les frequences 
harmoniques qui depassent le plus de la courbe de masquage calculee sur la 

35 base du spectre en module |X| , comme decrit precedemment. 
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Le post-liftre 140 de la figure 24 est adapte separement par un module 
146 qui realise ia minimisation des ecarts entre la phase cpx du spectre du 

signal et la phase minimale q)(k) calculee par le module 142 pour une ou 
plusieurs des harmoniques. La aussi, ies harmoniques selectionnees pour le 
calcul de Tecart de phase minimise peuvent I'etre en fonction de la courbe de 
masquage estimee par le module 145. Le module 146 fournit au multiplexeur 
de sortie 6 du codeur Ies parametres iLif qui representerit le post-liftre optimal 
140, pour qu'ils soient utilises dans le post-filtre 55 du decodeur. 

Dans Texemple illustre par la figure 25, le post-liftre 140 servant dans 
le calcul des phases minimales n'est pas adaptatif. Les phases minimales (p(k) 
calculees par le module 142 pour les harmoniques de la frequence 
fondamentale sont comparees aux phases cp^ du spectre du signal audio, et 
I'ecart de phase fait Tobjet d'une quantification par un module 148. Les index 
de quantification correspondents iAcp sont fournis par le module 148 au 
multiplexeur de sortie 6 du codeur. 

Dans un decodeur (figure 26) correspondent a un codeur selon la 
figure 25, un module 149 exploite ces index de quantification IAcp fournis par le 
demultiplexeur 45 pour obtenir ies valeurs des ecarts de phase quantifies, 
qu'un additionneur 150 ajoute aux phases minimales <p(k) calculees par le 
module 57 (les post-liftres 140 et 55 etant identiques). Les phases fournies par 
Tadditionneur 150 sont ensuite utilisees par le module 54 qui synthetise les 
raies spectrales de la composante harmonique X^. 

L'ecart de phase quantlfie par le module 148, et que les modules 149 
et 150 du decodeur utilisent pour corriger les phases minimales <p(k), peut etre 
de deux natures : 

- il peut representee pour cheque frequence d'index i correspondant a une 
harmonique d'ordre k de la frequence fondamentale Fg la difference entre 

la phase cpx(i) du spectre du signal a la frequence i et la phase minimale 

(p(k) calculee par le module 142 pour r harmonique k ; 

- alternativement ou cumulativement, cet ecart de phase peut representer 
la variation de la phase cp^ du spectre sur la largeur d'un ou plusieurs 
pics spectraux correspondant S des harmoniques du signal, cette 
variation etant relative a la phase minimale (p(k) affectee aux pics en 
question. 



wo 01/03120 




PCT/FROO/01908 



-31 - 



Dans les deux cas, le ou les pics pour lesquels Tecart de phase est 
quantifie peuvent etre choisis en fonction de I'energie spectrale representee 
par Tenveloppe superieure, qui est disponible au codeur et au decodeur, ce qui 
permet au decodeur de determiner a quelle raie spectrale les ecarts doivent 
5 etre appliques. 

Dans le premier cas. les ecarts de phase peuvent faire robjet d'une 
quantification scalaire, ou vectorielle si on les regroupe pour plusieurs pics. 

Dans le second cas, la variation de la phase cp^ autour de la phase 

minimale (p(k) sur la largeur d'un pic harmonique (determines par la largeur de 
10 la raie de reference utilisee par le module 54), peut etre representee 
simplement par la pente d'un segment lineaire selectionne comme etant celui 
qui presente une distance quadratique minimale avec la courbe de variation de 
phase du spectre sur la largeur de la raie, et eventuellement par un decalage a 
Torigine. 

15 Ces pentes peuvent faire I'objet d'une quantification scalaire, ou 

vectorielle si on les regroupe pour plusieurs pics. 

La quantification des variations de phase sur les pics harmoniques 
peut porter sur Tensemble des frequences harmoniques, Une autre possibilite 
est de quantifier plusieurs pentes obtenues chacune par moyennage des 

20 pentes aux harmoniques sur une ou plusieurs sous-bandes du spectre. Ce 
moyennage peut etre pondere pour prendre en compte les energies relatives 
aux differentes frequences harmoniques, representees par Tenveloppe 
superieure. 

Le module 148 peut egalement modeliser la variation de phase sur la 
25 largeur tfun pic par une courbe plus complexe qu'un segment lineaire, par 
exemple un spline, dont les parametres sont quantifies pour etre transmis au 
decodeur. 

Une autre possibilite est tfeffectuer un apprentissage prealable de 
modeles de phase aux harmoniques, representatifs des variations de la phase 

30 sur la largeur des pics, observees sur un corpus de signaux de reference. Ces 
modeles sont ranges dans un dictionnaire memorise par les modules 148 et 
149. Le module 148 du codeur determine les index iAcp correspondant aux 
adresses des modeles les plus proches des variations de phase au voisinage 
des pics harmoniques consideres, et le module 149 du decodeur recupere ces 

35 modeles pour la synthese de la phase de la composante harmonique. 
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REVENDICATIONS 

1 . Procede de codage dun signal audio (x), dans lequel on estime une 
frequence fondamentale (Fq) du signal audio, on detemnine un spectre du 
signal audio par une transformee dans le domaine frequentiel tf une trame du 

5 signal audio, et on inclut dans un flux numerique de sortie (<t>) des donnees de 
codage dune composante harmonique du signal audio, comprenant des 
donnees representatives rf amplitudes spectrales associees a des frequences 
multiples de la frequence fondamentale, caracterise en ce que Tamplitude 
spectrale associee a une desdites frequences multiples de la frequence 

10 fondamentale est un maximum local du module du spectre au voisinage de 
ladite frequence multiple. 

2. Procede selon la revendication 1, dans lequel lesdites donnees 
representatives d' amplitudes spectrales associees a des frequences multiples 
de la frequence fondamentale (Fq) sont obtenues au moyen de coefficients 

15 cepstraux (cx_sup) calcules en transformant dans le domaine cepstral une 
enveloppe superieure comprimee (LX_sup) du spectre du signal audio. 

3. Procede selon la revendication 2, dans lequel Tenveloppe 
superieure comprimee (LX_sup) est determinee par interpolation desdites 
amplitudes spectrales associees aux frequences multiples de la frequence 

20 fondamentale (Fq) avec application tf une fonction de compression spectrale. 

4. Procede selon la revendication 3, dans lequel Tinterpolation est 
effectuee entre des points dont I'abscisse est une frequence multiple de la 
frequence fondamentale (Fq) et dont Tordonnee est Tamplitude spectrale 

associee a ladite frequence multiple, comprimee ou non comprimee. 

25 5. Procede selon Tune quelconque des revendications 2 a 4. dans 

lequel la transformation dans le domaine cepstral de Tenveloppe superieure 
comprimee (LX_sup) est effectuee suivant une echelle de frequences non- 
iineaire. 

6. Procede selon Tune quelconque des revendications 2 a 5, dans 

30 lequel les coefficients cepstraux (cx_sup) sont quantifies pour former lesdites 
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donnees representatives des amplitudes spectrales associees aux frequences 
multiples de la frequence fondamentale (Fq). 

7. Procede selon la revendication 6, dans lequel la quantification des 
coefficients cepstraux (cx_sup) porte sur un residu de prediction pour chacun 

5 des coefficients cepstraux. 

8. Procede selon la revendication 7, dans lequel le residu de prediction 
pour un coefficient cepstral est de la forme (cx[n,i] - a(i).rcx_q[n-1J])/[2-a(i)]. 
ou cx[n,i] designe une valeur courante dudit coefficient cepstral, rcx_q[n-1,i] 
designe une valeur precedente du residu de prediction quantifie, et a(i) designe 

10 un coefficient de prediction. 

9. Procede selon la revendication 7 ou 8, dans lequel on emploie des 
predicteurs differents pour determiner les residus de prediction pour au moins 
deux des coefficients cepstraux. 

10. Procede selon Tune quelconque des revendications 6^9, dans 
15 lequel les coefficients cepstraux (cx_sup) sont repartis en plusieurs sous- 

vecteurs cepstraux quantifies separement par une quantification vectorielle 
portant sur un residu de prediction des coefficients cepstraux. 

11. Procede selon Tune quelconque des revendications 6 a 10, dans 
lequel on normalise les coefficients cepstraux (cx_sup) avant la quantification, 

20 en modifiant le coefficient cepstral d'ordre 0 de telle sorte que T amplitude 
spectrale associee a une frequence multiple de la frequence fondamentale (Fq) 

soit representee de maniere exacte par les coefficients cepstraux normalises. 

12. Procede selon Tune quelconque des revendications 6 a 11, dans 
lequel les coefficients cepstraux (cx_sup) sont transformes par liftrage dans le 

25 domaine cepstral avant d'etre quantifies. 

13. Procede selon la revendication 12, dans lequel le liftrage est de la 
forme Cp(i) = [1 +Y2 -"Yi'].c(i)-(ji7i), ou Cp(i) et c(i) designent le coefficient 

cepstral d'ordre i>0 respectivement avant et apres liftrage, et Y2 sont des 

coefficients compris entre 0 et 1 , et |i est un coefficient de preaccentuation. 
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14. Procede selon la revendication 13, dans lequel ^ = (72 - Yi) c(1 ). 

15. Procede selon Tune quelconque des revendications 12 a 14, dans 



lequel on recalcule une valeur du module du spectre du signal audio a au 
moins une frequence multiple de la frequence fondamentale (Fq) sur la base 
5 des coefficients cepstraux transformes et quantifies (cx_sup_q), et on adapte 
ledit liftrage de iagon a minimiser un ecart de module entre le spectre du signal 
audio et au moins une valeur de module recalculee. 

16. Procede selon Tune quelconque des revendications 12 a 14, dans 

lequel on recalcule une valeur du module du spectre du signal audio a au 

10 moins une frequence multiple de la frequence fondamentale (Fq) sur la base 
des coefficients cepstraux transformes et quantifies (cx_sup_q), on 
retransforme les coefficients cepstraux par liftrage et iissage dans le domaine 
cepstral, on calcule des phases minimales (<p(k)) du signal audio a des 
frequences multiples de la frequence fondamentale sur la base des coefficients 

15 cepstraux retransformes (cxl[n]), et on adapte le liftrage effectue avant la 
quantification de fagon a minimiser un ecart entre le spectre du signal audio et 
au moins une valeur complexe dont le module a une valeur recalculee pour 
une frequence multiple de la frequence fondamentale et dont la phase est 
donnee par la phase minimale calculee pour ladite frequence multiple. 

20 17. Procede selon la revendication 16, dans lequel les liftrages effectues 

avant et apres la quantification sont adaptes conjointement de fagon a 
minimiser ledit ecart. et dans lequel on inclut dans les donnees de codage de la 
composante harmonique des parametres (iLif) representatifs du liftrage adapte 
effectue apres la quantification. 

25 18. Procede selon Tune quelconque des revendications 15 a 17, dans 

lequel Tecart minimise pour T adaptation du liftrage se rapporte a au moins une 
frequence multiple de la frequence fondamentale (Fq), selectionnee sur la base 

de {'importance du module du spectre en valeur absolue. 

19. Procede selon Tune quelconque des revendications 15 a 17, dans 

30 lequel on estime une courbe de masquage spectral du signal audio au moyen 
d'un modele psycho-acoustique, et I'ecart minimise pour Tadaptation du liftrage 
se rapporte a au moins une frequence multiple de la frequence fondamentale 
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(Fq), selectionnee sur la base de ^importance du module du spectre 
relativement a la courbe de masquage. 

20. Precede selon la revendication 2, dans lequel le spectre du signal 
audio et les coefficients cepstraux (cx_sup) resultant de la transformation de 

5 I'enveloppe superieure comprimee sont determines pour des trames 
successives de N echantillons du signal audio qui presentent des 
recouvrements mutuels, et dans lequel lesdites donnees representatives 
d'amplitudes spectrales associees aux frequences multiples de la frequence 
fondamentale estimee (Fq), obtenues au moyen des coefficients cepstraux 

10 calcules en transformant I'enveloppe superieure comprimee, sont incluses 
dans le flux numerique de sortie (O) pour seulement un sous-ensemble des 
trames. 

21. Precede selon la revendication 20, dans lequel, pour les trames ne 
faisant pas partie dudit sous-ensemble, on inclut dans le flux numerique de 

15 sortie des donnees (icx[n-1/2]) de quantification d'une erreur rf interpolation 
(ecx[rv-1/2]) des coefficients cepstraux resultant de la transformation de 
I'enveloppe superieure comprimee (LX_sup). 

22. Precede selon la revendication 20, dans lequel, pour les trames ne 
faisant pas partie dudit sous-ensemble, on determine un filtre interpolateur 

20 optimal (128) pour les coefficients cepstraux resultant de la transformation de 
I'enveloppe superieure comprimee (LX__sup), et on inclut dans le flux 
numerique de sortie (O) des donnees (iP) representant ledit filtre interpolateur 
optimal. 

23. Codeur audio, comprenant des meyens pour executer un procede 
25 selon Tune quelconque des revendications 1 a 22. 
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